基础概念:
(1)数据清洗是耗神的,原因有信息不完整,噪点(比如工资为-1元),前后不一等问题。
(2)数据缺失的原因有:设备故障,采集不当,N/A(Not Apploicable:比如对男性检查宫颈,对学生调查工资)
(3)数据缺失的类型:完全随机缺失,有区分的缺失(女性不愿意说出体重),不完全随机缺失
处理数据缺失的方法:
(1)Ignore
(2)Fill possible number(再次调查或有依据的推测可能的值)
(3)统一填写(平均值或其他固定数字)
一个例子:
离群点
取决于相对于其他点的距离的差距,即比较性的而非量化的。
LOF方法
(局部异常因子算法-Local Outlier Factor)**
采用LOF方法进行离群点检测时:LOF值越大,越可能为离群点。
简单的说
数据挖掘:理论与算法 笔记(1)
最新推荐文章于 2020-12-17 18:09:40 发布
本文介绍了数据挖掘中数据预处理的重要环节,包括数据清洗的原因和挑战,如信息不完整、噪声和前后不一致。针对数据缺失问题,提出了忽略、填充和统一填写等处理方法。此外,探讨了离群点的概念,特别是LOF方法在检测异常点中的应用,并区分了异常点和离群点。最后,讨论了如何处理重复信息,特别是通过窗口化比较来识别和整合。
摘要由CSDN通过智能技术生成