重复值和缺失值和空格值的处理

最新推荐文章于 2022-06-30 21:48:21 发布

Wayne0926

最新推荐文章于 2022-06-30 21:48:21 发布

阅读量477

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/Wayne0926/article/details/95340984

版权

使用Pandas库在Python中处理数据时，针对重复值，可以通过`duplicated()`和`drop_duplicates()`函数进行检查和删除。对于缺失值，可以使用`read_csv()`的`na_values`参数指定视为缺失值的内容，然后用`isnull()`检测，`fillna()`填充或`dropna()`删除。空格值的处理包括使用字符串方法`lstrip()`, `rstrip()`和`strip()`去除左右或两侧的空格。" 112899275,10545531,Linux tcpdump到Wireshark十六进制转换教程,"['网络协议', '数据捕获', 'Wireshark工具', '十六进制转换', 'Linux命令']

摘要由CSDN通过智能技术生成

#重复值处理
from pandas import read_csv
ak=read_csv('D://Python projects//reference data//4.3//data.csv')
#找出重复的位置
al=ak.duplicated()
#根据某些列判断是否重复
ao=ak.duplicated('id')
ai=ak.duplicated(['id','key'])
#提取重复行
ak[ai]
ak[ak.duplicated(['id','key'])]
#默认根据所有列删除重复值
new_ak=ak.drop_duplicates()
#也可以根据某一列删除重复值
new_po=ak.drop_duplicates('key')

#缺失数据的处理
from pandas import read_csv
sf=read_csv('D://Python projects//reference data//4.4//data.csv')
#规定指定字符为nan值
sd=read_csv('D://Python projects//reference data//4.4//data2.csv',
na_values=['a','b','Apple'])
#找出空值的位置(返回布尔值)
isNA=sf.isnull()
#获取空值所在的行
sf[isNA.any(axis=1)]
#找出某列为NAN的行
sf[isNA[['key']].any(axis=1)]
sf[isNA[[

最低0.47元/天解锁文章

Wayne0926

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
重复值和缺失值和空格值的处理

#重复值处理from pandas import read_csvak=read_csv('D://Python projects//reference data//4.3//data.csv')#找出重复的位置al=ak.duplicated()#根据某些列判断是否重复ao=ak.duplicated('id')ai=ak.duplicated(['id','key'])#提取重...
复制链接

扫一扫

专栏目录