基础概念:
(1)数据清洗是耗神的,原因有信息不完整,噪点(比如工资为-1元),前后不一等问题。
(2)数据缺失的原因有:设备故障,采集不当,N/A(Not Apploicable:比如对男性检查宫颈,对学生调查工资)
(3)数据缺失的类型:完全随机缺失,有区分的缺失(女性不愿意说出体重),不完全随机缺失
处理数据缺失的方法:
(1)Ignore
(2)Fill possible number(再次调查或有依据的推测可能的值)
(3)统一填写(平均值或其他固定数字)
一个例子:
离群点
取决于相对于其他点的距离的差距,即比较性的而非量化的。
LOF方法
(局部异常因
数据挖掘:理论与算法 笔记(1)
最新推荐文章于 2022-06-18 09:49:28 发布