读书笔记:大数据清洗技术06

本书章节探讨了大数据中缺失值的影响和处理方法,包括缺失模式分析、填充策略(如记录删除、成对删除、单值填充、多值填充)以及基于MapReduce的并行缺失值填充算法,通过实验验证了所提技术的有效性和效率。
摘要由CSDN通过智能技术生成

读书笔记:大数据清洗技术

作者:哈尔滨工业大学博导王宏志

第五章 缺失值填充

       缺失值是影响数据完整性的主要因素。缺失值不仅意味着信息的空白,更重要的是它会影响后续数据挖掘、统计分析等工作的进行。很多算法无法直接处理这些缺失值,比如在聚类算法中,距离函数无法处理缺失值,这会影响最终的聚类结果;在决策树分类中对在分裂属性取值为空的记录难以进行划分。

       尽管直接忽略包含缺失值的记录似乎能够解决上述问题,但面对高缺失值的情况,采用填充的方法比简单删除记录更有利于后续数据的利用。从数据分析的角度看,缺失值的这种未知性掩盖了数据分布,干扰了属性相关性的发现,这使得统计分析结果大打折扣,影响最终决策。缺失值填充的目的是依据已有数据和外部知识对数据中的缺失值进行补全的技术。大数据为缺失值填充带来了缺失值类型多样,可扩展性需求高,知识缺乏等挑战问题,针对这些挑战问题,本章提出了基于贝叶斯网络的缺失值填充算法,基于MapReduce编程模型的并行缺失值填充算法和基于众包的缺失值填充算法,并通过实验验证本章提出技术的有效性,效率和可扩展性。

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值