python之pandas库详解

最新推荐文章于 2024-05-27 15:04:33 发布

RosebudTT

最新推荐文章于 2024-05-27 15:04:33 发布

阅读量5.2k

点赞数 1

分类专栏：（2）python各种模块学习文章标签： python 数据分析

本文链接：https://blog.csdn.net/RosebudTT/article/details/105979967

版权

pandas 是一个 Python Data Analysis Library.在使用前 import pandas as pd

一.创建对象（产生数据）

pandas 中有三种基本结构：

Series：1D labeled homogeneously-typed array

DataFrame：General 2D labeled, size-mutable tabular structure with potentially heterogeneously-typed columns

Panel：General 3D labeled, also size-mutable array

1.Series

Series 是一维带标记的数组结构，可以存储任意类型的数据（整数，浮点数，字符串，Python 对象等等）。

作为一维结构，它的索引叫做 index，基本调用方法为s = pd.Series(data, index=index)。

data 可以是以下结构：

字典
ndarray
标量

（1）字典：如果 data 是个 dict，如果不给定 index，那么 index 将使用 dict 的 key 排序之后的结果，如果给定了 index，那么将会按照 index 给定的值作为 key 从字典中读取相应的 value，如果 key 不存在，对应的值为 NaN（not a number, Pandas 中的缺失默认值）

d = {'a' : 0., 'b' : 1., 'c' : 2.}

pd.Series(d)

（2）ndarray

或者list

s = pd.Series(np.random.randn(5), index=["a", "b", "c", "d", "e"])

s = pd.Series([1,3,5,np.nan,6,8])

（3）从标量值构造：

pd.Series(5., index=['a', 'b', 'c', 'd', 'e'])

2.DataFrame

通过传递一个 numpy array ，时间索引以及列标签来创建一个 DataFrame ，DataFrame 值要求每一列数据的格式相同

dates = pd.date_range('20130101', periods=6)
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))

除了向 DataFrame 中传入二维数组，我们也可以使用字典传入数据，字典的每个 key 代表一列，其 value 可以是各种能够转化为 Series 的对象：

df2 = pd.DataFrame({'A' : 1.,
                    'B' : pd.Timestamp('20130102'),
                    'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
                    'D' : np.array([3] * 4,dtype='int32'),
                    'E' : pd.Categorical(["test","train","test","train"]),
                    'F' : 'foo&#

最低0.47元/天解锁文章

RosebudTT

关注

1
点赞
踩
36

收藏

觉得还不错? 一键收藏
0
评论
python之pandas库详解

pandas 相当于 python 中 excel：它使用表（也就是 dataframe)，能在数据上做各种变换，但还有其他很多功能。pandas 最有趣的地方在于里面隐藏了很多包。它是一个核心包，里面有很多其他包的功能。这点很棒，因为你只需要使用 pandas 就可以完成工作...
复制链接

扫一扫