Python数据分析之数据加载

最新推荐文章于 2023-12-14 17:18:27 发布

墨染柒香

最新推荐文章于 2023-12-14 17:18:27 发布

阅读量623

点赞数

分类专栏： python数据分析

本文链接：https://blog.csdn.net/qq_35187510/article/details/80078493

版权

这篇博客介绍了Python数据分析中如何使用pandas库加载不同类型的数据文件，包括文本文件（如csv和txt）、HTML文件、XML文件、Excel文件、JSON文件以及HDF5文件。此外，还提及了数据结构中的Series和DataFrame，强调它们在数据分析中的重要性。

摘要由CSDN通过智能技术生成

当从外部的数据源中抽取出相应的数据，并将数据存入文件或数据库中之后，接下来就是将数据转换为pandas库可以进行操作的数据结构对象（只有转换，才能使用pandas库提供的各种操作来对数据进行分析）。

ok，因为需要转换为pandas中可以操作的数据结构，所以需要先了解pandas的两个核心数据结构：Series和DataFrame。

一：Serise

Serise用来表示一维数据结构，由两个相互关联的一维数组组成的（主数组和Index数组），主数组中的数据（表示标签对应的元素）是任意类型的，而Index数组中的数据（表示标签）不是任意类型都可以。、

Serise定义：

>>> import pandas as pd
>>> s=pd.Series([1,2,3,4])
>>> s
0    1
1    2
2    3
3    4
dtype: int64

>>> s1=pd.Series([1,2,3,4,5],index=['a','b','c','d','e'])
>>> s1
a    1
b    2
c    3
d    4
e    5
dtype: int64
>>> s1.values
array([1, 2, 3, 4, 5], dtype=int64)
>>> s1.index
Index(['a', 'b', 'c', 'd', 'e'], dtype='object'

>>> p=pandas.Series([4,5,6,6])
>>> pandas.Series(p)
0    4
1    5
2    6
3    6
dtype: int64

>>> dic={'a':1,'b':2,'c':3}
>>> pandas.Series(dic)
a    1
b    2
c    3
dtype: int64

二：DataFrame

DataFrame是用来表示二维数据结构（如二维表），由一个类似于Series的标签的一维数组和一个二维数组（包含了一系列列标签和列标签关联的一列数据）。

还可以认为DataFr

最低0.47元/天解锁文章

墨染柒香

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录