numpy、pandas实用总结(遍历、重复值、缺失值、异常值、数据过滤、数据清洗)

最新推荐文章于 2021-03-13 09:46:09 发布

勿语~

最新推荐文章于 2021-03-13 09:46:09 发布

阅读量3.5k

点赞数 4

分类专栏：数据分析

本文链接：https://blog.csdn.net/qq_24499745/article/details/91494583

版权

本文总结了Pandas在DataFrame遍历、数据重复与缺失值处理、异常值处理、数据过滤及清洗方面的常用方法。包括使用df.duplicated()和df.drop_duplicates()检查与去除重复值，df.isnull().any()和df.fillna()处理缺失值，以及如何删除或修改异常值。此外，还介绍了数据过滤的不同方式和四分位数数据清洗的步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

最近工作中经常实用pandas，然而，却发现自己对于pandas的掌握并没有想象中的好，很多pandas的函数和用法，自己都不是特别的熟练，特此总结一下最近经常会使用的pandas用途和函数，增强记忆。

pandas用途之DataFrame遍历

按照行对于DataFrame进行遍历，得到每一行，然后对于行进行操作，取每一列的单个数据
```
for index,row in df.iterrows():
	print(row['列名'],row['列名'])
```
如果需要得到每一行的每列的数据进行计算，则需要row[‘列名’].iloc[0]取出行中的单个元素
因为，单纯的取出row[‘列名’]是Series类型，会带有Series类型的一些索引等内容。

pandas用途之DataFrame数据查询重复，去除重复

DataFrame数据查询和取出重复元素，都是根据df.duplicated来实现的
使用df.duplicated()来查询重复值，返回布尔类型的值
- 参数：subset，设置判断重复的时候，按照哪些列进行判断。
  - 可以使用列表的方式设置，subset = [“列a”,“列b”]
  - 可以使用字符串的方式定义，subset = “列a”
- 参数：keep，设置判断重复的时候，保留项
  - keep = “first”, 保留第一项
  - keep = “last”, 保留最后一项
  - keep = False，一个都不保留
使用df.drop_duplicates()来删除重复值
- 参数：subset，设置判断重复的时候，按照哪些列进行判断。
  - 可以使用列表的方式设置，subset = [“列a”,“列b”]
  - 可以使用字符串的方式定义，subset = “列a”
- 参数：keep

最低0.47元/天解锁文章