衡量数据质量的要素
准确性、完整性、一致性、时效性 、可信性和可解释性
数据预处理的主要任务
数据清理
填充缺失值、平滑噪声数据、识别并删除孤立点、解决不一致问题
数据集成
将多个数据库或数据文件进行集成
数据规约
在取得相同条件下,减少特征数量
数据变换
数据格式、取值区间等的标准化
数据清理的任务
属性选择与处理
选取原则
- 尽可能赋予属性和属性名明确的含义
- 统一多数据源的属性值编码
- 处理唯一属性,唯一属性在数据挖掘中是没用的,如ID、姓名等
- 去除重复属性,原始数据中会出现一些意义相同的属性,例如出生日期和年龄
填充空缺值
填充空缺值的方法
- 忽略元组
- 人工填充
- 默认值填充
- 使用属性的中心度量来填充(对称数据分布应采用平均值来填充,非对称的数据分布应采用中位数来填充)
- 同一类元组属性的均值或中位数来填充
- 使用最有可能的值去填充,(可以利用数据集中的其他属性构造一棵决策树,预测缺失值)
噪声数据的处理
在测量一个变量时可能产生一些误差或者错误,使得测量值相对于真实值存在一定的误差
处理方法
-
分箱
通过考察数