数据分析认知课(四):数据分析——缺失值处理详解(理论篇)

数据分析认知课(四):数据分析——缺失值处理详解(理论篇)


原文


我的学习心得

数据处理是数据分析最为重要的一部分,需要花费大量时间在这上面。

完全变量:指数据集不含缺失值的变量
不完全变量:指数据集中含有缺失值的变量

缺失数据的类型
1.随机丢失
2.完全随机丢失
3.非随机丢失

数据缺失的原因
1.信息暂时无法获取。
2.数据因人为因素没有被记录、遗漏或丢失,这个是数据缺失的主要原因。
3.数据采集设备的故障、存储介质、传输媒体故障而造成数据丢失。
4.获取这些信息的代价太大。
5.有些对象的某个或某些属性是不可用的;
6.系统实时性能要求较高

缺失值处理方法
1.删除
2.插补
3.不处理

数据的完整性会影响数据分析的准确性,所以对于缺失值得处理有为重要,需要根据实际情况对数据进行取舍~


部分同学的心得

一、不含缺失值的变量称为完全变量,含缺失值的变量称为不完全变量。
二、缺失数据类型分为随机(数据丢失的概率与丢失的数据本身无关,而仅与部分已观测到的数据有关,数据的缺失不是完全随机的)、完全随机(数据丢失的概率与其假设值以及其他变量值都完全无关)和非随机丢失(数据的缺失与不完全变量自身的取值有关。分为两种情况:缺失值取决于其假设值(例如,高收入人群通常不希望在调查中透露他们的收入);或者,缺失值取决于其他变量值(假设女性通常不想透露她们的年龄,则这里年龄变量缺失值受性别变量的影响)。)。
三、缺失的原因:
信息暂时无法获取。如某种产品的收益等具有滞后效应。
数据因人为因素没有被记录、遗漏或丢失,这个是数据缺失的主要原因。
数据采集设备的故障、存储介质、传输媒体故障而造成数据丢失。
获取这些信息的代价太大。
有些对象的某个或某些属性是不可用的;如:未婚者的配偶姓名、儿童的固定收入状况等。
系统实时性能要求较高,即要求得到这些信息前迅速做出判断或决策。
四、缺失值的影响:使系统丢失大量的有用信息;
使系统中所表现出的不确定性更加显著,系统中蕴涵的确定性成分更难把握;
包含空值的数据会使数据挖掘过程陷入混乱,导致不可靠的输出。
五、缺失值处理方法:1.删除2.插补3.不处理缺失值。

学习心得(四)
1,缺失值类型有随机丢失(MAR),完全随机丢失(MCAR),非随机丢失(MNAR)。其差别在于数据丢失与不完全变量的关系。
2,缺失原因,人为因素占比较大
3,缺失值对于数据分析的影响
二,处理方法
1删除
2,插补,人工填写,特殊值填充,平均值填充,热卡填充,k最近距离法(数据类型不同,距离也不相同),回归,期望值最大化方法,多重插补(插补-分析-合并),c4.5方法
3,不处理缺失值,直接在包含空值的数据上进行数据挖掘的方法。eg,贝叶斯网络


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值