(一)数据质量分析
在数据挖掘的过程中,数据的预处理过程往往是十分重要的一环,而数据质量分析是数据预处理的前提,也是数据挖掘的基础。数据挖掘的过程要建立在数据可靠的基础之上。常见的“脏数据”有
-
缺失值:
概念:记录的缺失或者是记录中某个字段的缺失
原因:数据无法获取;信息在统计时被遗漏等
影响:增加数据挖掘过程中的不确定性、不可靠输出
处理:可采用填补(均值,众数,机器学习等方法)、删除等 -
异常值:
概念:录入错误以及含有不合理的数据,其数据明显偏离正常值,异常值也称“离群点”
原因:数据统计过程中的错误统计等
影响:降低数据挖掘的质量
处理:采用离群点检测算法来检测离群点 -
不一致值:
概念: 不同数据源之间肯存在的相关字段,数据口径不一致的现象
原因:数据采集失误;数据建表不一致,数据关联形式不一致等
影响:增加了数据实验的困难度,使得数据挖掘的结果偏离
(二)数据统计量
统计量是统计理论中用来对数据进行分析、检验的变量。通过统计量可以借助样本数据区推断总体的特征。假设x1,x2,…,xn是从总体X中抽取容量为n的一个样本,如果由此样本构造一个函数F(x1,x2,…,xn),称这个函数为一个统计量。
常用统计量:
- 均值、方差、偏度、峰度
- 最小值、中位数、众数、最大值
- 卡方统计量
(三)相关性分析