数据预处理—数据清洗(1)—缺失值处理

3.1数据清洗

缺失值,异常值和重复值的处理

3.1.1缺失值处理
  • 数据缺失分类
    • 行记录缺失,实际上就是记录丢失
    • 数据列值缺失,数据记录中某些列值空缺
      • 数据库 Null
      • Python返回对象None
      • Pandas Numpy NaN
      • 个别情况下,部分缺失值会使用空字符串代替
  • 缺失值处理方式
    • 直接删除带有缺失值的行记录(整行删除)或者列字段(整列删除),删除意味着会消减数据特征,不适合直接删除缺失值的情况
      • 数据记录不完整情况且比例较大(如超过10%),删除会损失过多有用信息。
      • 带有缺失值的数据,记录大量存在着明显的数据分布规律的特征
      • 带有缺失值的数据,记录的目标标签(即分类中的Label变量)主要集中于某一类或几类,如果删除这些数据记录将使对应分类的数据样本丢失大量特征信息,导致模型过拟合或分类不准确。
    • 填充缺失值相对直接删除而言,用适当方式填充缺失值,形成完整的数据记录是更加常用的缺失值处理方式。常用的填充方法如下:
      • 统计法
        • 对于数值型的数据,使用均值、加权均值、中位数等方填充
        • 对于分类型数据,使用类别众数最多的值填充。
  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值