数据分析(二十五)

本文深入探讨了数据分析过程中的数据清洗,包括数据分布的理解,缺失值的处理,以及重点讲解了噪声值的处理方法,如盖帽法和分箱法。对于噪声值,介绍了如何通过盖帽法限制极端值,并用分箱法进行数据归类,以减少异常值的影响。
摘要由CSDN通过智能技术生成

24. 数据清洗(二)

24.1 数据分布

在这里插入图片描述

  • 右偏:平均数>中位数>众数(价格,X轴的大小)
  • 左偏:众数>中位数>平均数
  • 正态分布:三者相等

24.2 缺失值处理

连续变量分类变量
缺失值少于20%均值或者中位数不需要填补,单算一类或者用众数补充
缺失值在20%~80%均值或者中位数,(指示哑变量)不需要填补,单算一类或者用众数补充
缺失值在80%以上每个有缺失值的变量生成一个指示哑变量,参与建模,不再使用原始数据每一个有缺失值的变量生成一个指示哑变量,参与建模,不再使用原始数据

24.3 噪声处理

噪声值是指该数据中有一个或者多个数据与其他数据存在较大差异的值

噪声值,异常值,离群值

  • 单个变量:盖帽法,分箱法
  • 多个变量:聚类
24.3.1 盖帽法

在这里插入图片描述

默认情况:将小于1%分位数和大于99%分位数的值直接替换成1%或者99%(将小于1%的数,替换成1%)

24.3.2 分箱法

等宽分箱(分成数量一致的几个类)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值