数据缺失处理——数据分析

最新推荐文章于 2024-03-30 14:55:16 发布

Tanya0513

最新推荐文章于 2024-03-30 14:55:16 发布

阅读量3.3k

点赞数 1

文章标签：数据挖掘算法大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Angelina0513/article/details/114260530

版权

1、数据缺失原因

信息获取不及时；很多情况下数据值的属性不是同时获得的，比如体检，安全警报。
信息遗漏；可能是人为遗漏，也可能是由于数据采集设备和存储设备的故障等原因。
属性不可用；特殊数据中没有该属性值。

2、属性值缺失和数据缺失

属性值缺失不代表一定存在数据值的缺失，如果缺失的属性值本来就是无关的，则可直接忽略或删除。因此，在补全缺失值时需要结合相应的场景对缺失值中包含的有用信息进行补全。

3、缺失值的类型

完全随机缺失：即缺失的数据是完全随机的，不依赖其他值，对样本的其他属性没有任何影响。
随机缺失：即缺失的数据不是完全随机的，依赖于其他属性值。例如身高的缺失与年龄分布有一定关系。
非随机缺失：缺失的数据与分析的内容有关，对样本分析的结果造成影响。

4、缺失值丢失的影响

数据可能丢失大量有用信息，对算法的结果造成偏差。
数据分析的不确定性增强
数据空缺增加算法的时间复杂度

5、缺失值处理

删除；将不重要的属性值或者整个数据删除。优点是简单粗暴，但是不能挖掘隐藏信息，有误删的情况，降低算法性能。
数据补全；根据不同的补全方法计算补全值进行补全，可以人工填写，特殊值法，平均值法，期望最大，K邻近值等，优点是能最大还原原始数据，但是不恰当的补全可能会引入噪声，甚至改变原始数据的信息。
不处理；通常用贝叶斯网络和人工神经网络进行数据挖掘。
高维映射；将变量映射到高维空间，可以保留原始数据的全部信息且不用考虑缺失值，缺点是计算量过大。

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
数据缺失处理——数据分析

1、数据缺失原因信息获取不及时；很多情况下数据值的属性不是同时获得的，比如体检，安全警报。信息遗漏；可能是人为遗漏，也可能是由于数据采集设备的故障、存储介质的故障、传输媒体的故障等原因而丢失。有些对象的某个或某些属性是不可用的。如一个未婚者的配偶姓名、一个儿童的固定收入状况等。有些信息（被认为）是不重要的。如一个属性的取值与给定语境是无关。获取这些信息的代价太大。系统实时性能要求较高。即要求得到这些信息前迅速做出判断或决策。2、属性值缺失和数据缺失属性值缺失不代表一定存在数据值的缺失，如
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。