Python数据分析—pandas类库常用方法

最新推荐文章于 2023-12-23 15:35:46 发布

study28

最新推荐文章于 2023-12-23 15:35:46 发布

阅读量670

点赞数

文章标签： python 机器学习 big data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/study28/article/details/120771731

版权

一.pandas

Pandas是用于数据操纵和分析，建立在Numpy之上的。Pandas为Python带来了两种新的数据结构：Pandas Series和Pandas DataFrame，借助这两种数据结构，我们能够轻松直观地处理带标签数据和关系数据。

Pandas功能：

允许为行和列设定标签
可以针对时间序列数据计算滚动统计学指标
轻松处理NaN值
能够将不同的数据集合并在一起
与Numpy和Matplotlib集成

二.常用方法

1，df.reset_index(drop=True) 重置索引，会创建一个新对象。默认保留原来索引，加上drop=True删除原来索引。

2，df.set_index() 设置一列索引。

3，df.drop() 删除指定行值或列值（axis = 1 列 axis = 0 行，默认为行）。

df.drop(index=df[df["价格"].isnull()].index, inplace=True) #例如：删除价格为空的所有行

4，del df["列"] 删除一列值。

5，df.dropna() 删除指定的行或者列为空的值。

6，df.drop_duplicated() 删除重复值，可指定列，指定保留第一行，或者最后一行。

7，df.loc["行","列"] 通过标签定位数据，df.iloc[:] 通过索引定位数据。

8，df.sort_values("列",axis=0, ascending=True) 排序。Series不需要参数列，ascending默认True升序。

9，df.describe() 快速列出数据的概要，多个维度的汇总统计。

10，df.info() 索引，数据类型，内存信息等。

11，df.unique() 返回一个Series里面唯一值组成的数组。

12，df.sum() 计算一列的和。

13，df.count() 计算非NaN值的总量。

14，df.mean() 计算一列的平均值。

15，df.median() 计算一列的中位数。

16，df.mode() 计算一列的众数。

17，df.var() 计算一列的方差。

18，df.std() 计算一列的标准差。

19，df.min() 计算一列的最小值。

20，df.max() 计算一列的最大值。

21，df.value_counts() 计算一列中数据出现的频率。

22，df.groupby() 分组。

23，df.head() 取出数据的前几行。

24，df.tail() 取出数据的后几行。

25，read_csv()，read_excel()，read_sql()，read_json()，read_html() 等.... pandas提供的读取数据方法。

26，to_excel() 写入excel文件，可以用pd.ExcelWriter()申明对象存储多个sheet。

27，pd.contact() ，pd.append() 行数据合并拼接，只在axis = 0上操作。

28，pd.merge() 数据关联操作，类sql,可以设置关联方向：left, right,inner,outer。 join()类merge，但是只能在索引关联。

29，pd.rename(columns={"原名":"修改名"}, inplace = True) 修改列名。

30，df["列"].fillna(0) 把一列里面为空的赋值为0.

31，df["列"].astype(int) 转换一列数据类型。

32，df.agg() 指定列或者行上一个或者多个操作数据聚合。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python数据分析—pandas类库常用方法

一.pandas Pandas是用于数据操纵和分析，建立在Numpy之上的。Pandas为Python带来了两种新的数据结构：Pandas Series和Pandas DataFrame，借助这两种数据结构，我们能够轻松直观地处理带标签数据和关系数据。Pandas功能：允许为行和列设定标签可以针对时间序列数据计算滚动统计学指标轻松处理NaN值能够将不同的数据集合并在一起与Numpy和Matplotlib集成二.常用方法1，df.reset_index(drop...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。