Pandas常用操作整理

最新推荐文章于 2024-08-29 17:25:42 发布

Evey_zhang

最新推荐文章于 2024-08-29 17:25:42 发布

阅读量597

点赞数

文章标签： pandas

本文链接：https://blog.csdn.net/weixin_41403341/article/details/120613442

版权

本文详细介绍了Pandas的各种操作，包括数据读取、数据结构、查询、新增列、统计函数、缺失值处理、数据排序、字符串处理、数据合并与分组。还探讨了Pandas中的数据类型、索引用途、日期处理和机器学习特征处理等，为数据处理提供全面指南。

摘要由CSDN通过智能技术生成

- pandas读取数据

1，pandas读取纯文本文件
纯文本文件包括：csv,txt
语法：pd.read_csv(fpath)
2,读取excel文件
语法：pd.read_excel(fpath)
3,读取MySQL数据库
语法：pd.read_sql()

- pandas数据结构

1,Series
Series是一种类似于一维数组的对象，它由一组数据（不同数据类型）以及一组与之相关的数据标签（即索引组成）

2,DataFrame
Dataframe是一个表格型的数据结构
每行可以是不同的值类型（数值，字符串，布尔值）
既有行索引index,也有列索引columns
可以被看做由Series组成的字典

3,从DataFrame中查询出Series
如果只查询一行，一列，返回的是pd.Series
如果查询多行，多列，返回的是pd.DataFrame

- pandas查询数据

pandas查询数据的几种方法
1，df.loc方法，根据行，列的标签值查询
2，df.iloc方法，根据行，列的数字位置查询
3，df.where方法
4，df.query方法

df.loc既能查询，又能覆盖写入，强烈推荐多用！

pands使用df.loc查询数据的方法
1，使用单个lable值查询数据
2，使用值列表批量查询
3，使用数值区间进行范围查询
4，使用条件表达式查询
5，调用函数查询

以上查询方法，既使用于行，也适用于列

- pandas新增数据列

对于已经存在的DataFrame,对其新增数据列
1，直接赋值
2，df.apply方法
3，df.assign方法
可以同时添加多个新的列
4，按条件选择分组分别赋值

- pandas数据统计函数

1，汇总类统计
df.describe()
df[].mean() df[].max()等
2，唯一去重和按值计数
2.1 唯一性去重 df[].unique()
2.2 按值计数 df[].value_counts()
3，相关系数和协方差
3.1相关系数：衡量相似度程度，当他们的相关系数为1，说明两个变量变化时的正向相似度最大，当相关系数为-1时，说明两个变量变换的反向相似度最大。
df.corr()
3.2协方差：衡量同向反向程度，如果协方差为正，说明X,Y同向变化，协方差越大说明同向程度越高；如果协方差为负，说明X,Y反向变化，协方差越小说明反向程度越高。
df.cov()

- pandas缺失值处理

pandas处理缺失值的函数有：
1，isnull 和 notnull: 检测是否是空值，可用于df和series
2，dropna:丢弃，删除缺失值
axis:删除行还是列，{0 or ‘index’ , 1 or ‘columns’ },default 0
how：=any 则任何值为空都删除，=all 则所有值为空才删除
inplace: =True 则修改当前df ,否则返回新的df
3，fillna:填充空值
value:用于填充的值，可以是单个值，或者字典（key是列名，value是值）
method:=ffill 使用前一个不为空的值填充即forward fill ；=bfill 使用后一个不为空的值填充&#