pandas类库常用方法

最新推荐文章于 2024-08-11 16:05:35 发布

Twilight_gq

最新推荐文章于 2024-08-11 16:05:35 发布

阅读量310

点赞数

文章标签： python pycharm ide

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Twilight_gq/article/details/121575672

版权

1.概念

Pandas是用于数据操纵和分析，建立在Numpy之上的。Pandas为Python带来了两种新的数据结构：Pandas Series和Pandas DataFrame，借助这两种数据结构，我们能够轻松直观地处理带标签数据和关系数据。

2.常用方法

1，df.reset_index(drop=True) 重置索引，会创建一个新对象。默认保留原来索引，加上drop=True删除原来索引。

2，df.set_index() 设置一列索引。

3，df.drop() 删除指定行值或列值（axis = 1 列 axis = 0 行，默认为行）。

df.drop(index=df[df["价格"].isnull()].index, inplace=True) #例如：删除价格为空的所有行

4，del df["列"] 删除一列值。

5，df.dropna() 删除指定的行或者列为空的值。

6，df.drop_duplicated() 删除重复值，可指定列，指定保留第一行，或者最后一行。

7，df.loc["行","列"] 通过标签定位数据，df.iloc[:] 通过索引定位数据。

8，df.sort_values("列",axis=0, ascending=True) 排序。Series不需要参数列，ascending默认True升序。

9，df.describe() 快速列出数据的概要，多个维度的汇总统计。

10，df.info() 索引，数据类型，内存信息等。

11，df.unique() 返回一个Series里面唯一值组成的数组。

12，df.sum() 计算一列的和。

13，df.count() 计算非NaN值的总量。

14，df.mean() 计算一列的平均值。

15，df.median() 计算一列的中位数。

16，df.mode() 计算一列的众数。

17，df.var() 计算一列的方差。

18，df.std() 计算一列的标准差。

19，df.min() 计算一列的最小值。

20，df.max() 计算一列的最大值。

21，df.value_counts() 计算一列中数据出现的频率。

22，df.groupby() 分组。

23，df.head() 取出数据的前几行。

24，df.tail() 取出数据的后几行。

25，read_csv()，read_excel()，read_sql()，read_json()，read_html() 等.... pandas提供的读取数据方法。

26，to_excel() 写入excel文件，可以用pd.ExcelWriter()申明对象存储多个sheet。

27，pd.contact() ，pd.append() 行数据合并拼接，只在axis = 0上操作。

28，pd.merge() 数据关联操作，类sql,可以设置关联方向：left, right,inner,outer。 join()类merge，但是只能在索引关联。

29，pd.rename(columns={"原名":"修改名"}, inplace = True) 修改列名。

30，df["列"].fillna(0) 把一列里面为空的赋值为0.

31，df["列"].astype(int) 转换一列数据类型。

32，df.agg() 指定列或者行上一个或者多个操作数据聚合。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。