Python中重复值、缺失值、空格值处理

最新推荐文章于 2023-06-16 15:01:52 发布

小力丸

最新推荐文章于 2023-06-16 15:01:52 发布

阅读量3k

点赞数

分类专栏： Python数据分析篇文章标签： Python 重复值缺失值空格值数据清洗

本文链接：https://blog.csdn.net/lll1528238733/article/details/75093258

版权

本文介绍了Python中处理数据清洗的常见操作，包括使用drop_duplicates()函数去除数据集中的重复行，利用dropna()函数删除含有缺失值的记录，以及运用strip()方法清除字符串两侧的空格。这些技巧在处理数据集时非常实用。

摘要由CSDN通过智能技术生成

1、重复值处理

把数据结构中，行相同的数据只保留一行。
函数语法：
drop_duplicates()
删除重复值newdf=df.drop_duplicates()

from pandas import read_csv

df = read_csv('D://PDA//4.3//data.csv')

df

#找出行重复的位置
dIndex = df.duplicated()

#根据某些列，找出重复的位置
dIndex = df.duplicated('id')
dIndex = df.duplicated(['id', 'key'])

#根据返回值，把重复数据提取出来
df[dIndex]

#直接删除重复值
#默认根据所有的列，进行删除
newDF = df.drop_duplicates()
#当然也可以指定某一列

最低0.47元/天解锁文章

小力丸

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
Python中重复值、缺失值、空格值处理

1.1 重复值处理把数据结构中，行相同的数据只保留一行。函数语法：drop_duplicates()删除重复值newdf=df.drop_duplicates()from pandas import read_csvdf = read_csv('D://PDA//4.3//data.csv')df#找出行重复的位置dIndex = df.duplicated()
复制链接

扫一扫

专栏目录