基于pandas的数据清洗

本文介绍了如何基于Pandas进行数据清洗,包括处理丢失的数据,如None和np.nan的区别,以及如何使用isnull、notnull、dropna和fillna等方法。还涉及处理重复数据,通过drop_duplicates()函数去除重复行,并讨论了清洗异常数据的策略,例如通过设定阈值来过滤异常值。
摘要由CSDN通过智能技术生成

基于pandas的数据清洗

空值、重复值、异常值

处理丢失的数据

  • 有两种丢失数据
    • None
    • np.nan(NaN)
  • 两种丢失数据的区别
type(None)  # None对象类型
type(np.nan)  # NAN浮点类型
  • 为什么在数据分析中需要用到的是浮点类型的空而不是对象类型?
    • 数据分析中会常常使用某些形式的运算来处理原始数据,若原数据中的空值为NAN形式,则不会干扰或者中断运算
    • NAN可以参与运算
    • None不可以参与运算
  • 在pandas中若遇到了None形式的空值则pandas会将其强转成NAN的形式
# 伪造一组数据(存在空值)
df = DataFrame(data=np.random.randint(0, 100, size=(8, 6)))
df.iloc[2, 3] = None
df.iloc[4, 4] = np.nan
df.iloc[5, 2] = None

pandas处理空值操作

  • isnull
  • notnull
  • any
  • all
  • dropna
  • fillna

方式1:对空值进行过滤(删除空所在的行数据)

  • 技术:isnull,notnull,any, all
df.isnull(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值