重复值和缺失值和空格值的处理

使用Pandas库在Python中处理数据时,针对重复值,可以通过`duplicated()`和`drop_duplicates()`函数进行检查和删除。对于缺失值,可以使用`read_csv()`的`na_values`参数指定视为缺失值的内容,然后用`isnull()`检测,`fillna()`填充或`dropna()`删除。空格值的处理包括使用字符串方法`lstrip()`, `rstrip()`和`strip()`去除左右或两侧的空格。" 112899275,10545531,Linux tcpdump到Wireshark十六进制转换教程,"['网络协议', '数据捕获', 'Wireshark工具', '十六进制转换', 'Linux命令']
摘要由CSDN通过智能技术生成

#重复值处理
from pandas import read_csv
ak=read_csv('D://Python projects//reference data//4.3//data.csv')
#找出重复的位置
al=ak.duplicated()
#根据某些列判断是否重复
ao=ak.duplicated('id')
ai=ak.duplicated(['id','key'])
#提取重复行
ak[ai]
ak[ak.duplicated(['id','key'])]
#默认根据所有列删除重复值
new_ak=ak.drop_duplicates()
#也可以根据某一列删除重复值
new_po=ak.drop_duplicates('key')


#缺失数据的处理
from pandas import read_csv
sf=read_csv('D://Python projects//reference data//4.4//data.csv')
#规定指定字符为nan值
sd=read_csv('D://Python projects//reference data//4.4//data2.csv',
            na_values=['a','b','Apple'])
#找出空值的位置(返回布尔值)
isNA=sf.isnull()
#获取空值所在的行
sf[isNA.any(axis=1)]
#找出某列为NAN的行
sf[isNA[['key']].any(axis=1)]
sf[isNA[[

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值