python数据清洗记录(持续更新)

数据清洗在数据分析中至关重要,本文详细介绍了Python处理数值类和文本类数据的缺失值与异常值方法。针对缺失值,区分了NaN、None、NaT三种类型,并探讨了其处理策略,包括删除和插值等。对于异常值,通过数据限制和分布分析来识别并提出相应处理方案。此外,文本数据的清洗挑战,如object类型、混合格式和无定向数据,也提供了相应处理思路。
摘要由CSDN通过智能技术生成

数据清洗是数据分析中很重要的一步,好比蔬菜水果要洗过之后再吃,不然容易拉肚子;
本文目的是持续搜集总结python对各种数据进行清洗的方法,之后遇到忘记的在这里Ctrl+F就找得到;
文中有提供简单的案例,看到的同学可以复制黏贴操作一下;

数据清洗

数值类

1缺失值
1.1缺失值的类型

NaN – not a number – 对于数来说,非数字
None – 对于object来说,没东西
NaT – not a time --对于时间来说,非时间

test11 = pd.DataFrame({'num':[1,2,np.nan,4],
                       'obj':['a',None,'c','d'],
                       'time':pd.to_datetime(['2022-01-01','2022-01-02','2022-01-03',np.nan])})

在这里插入图片描述

1.2缺失值的探索分析
#isnull(),探索上述缺失值类型,返回bool型
test11.isnull() 

#对布尔型的dataframe进行求和聚合查看数量
test11.isnull().sum
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值