1.数据质量分析
数据质量分析主要任务:检查原始数据是否存在脏数据。
脏数据:
- 缺失值
- 异常值
- 不一致的值
- 重复数据及含有特殊符号(如:#、¥、*)的数据
1.1 缺失值分析
数据缺失主要包括:记录的缺失、记录中某个字段信息的缺失。
缺失值产生原因:
- 有些信息暂时无法获取,获取信息代价太大
- 部分信息被遗漏,人为因素:忘记填写或对数据理解错误引起数据遗漏;非人为因素:数据采集设备、存储介质、传输媒体故障引起数据丢失
- 属性值不存在,如:未婚者配偶姓名
缺失值影响:
- 数据挖掘建模丢失大量有用信息
- 数据挖掘模型所表现处的不确定性更加显著
- 控制数据会导致建模过程陷入混乱,导致不可靠的输出
缺失值分析:
1.2 异常值分析
异常值分析:检验数据是否有录入错误及不合常理的数据。
异常分析方法:
- 简单统计量分析:常用统计量,最大值、最小值,用于判断变量取值是否超出合理范围
- 3δ原则;若数据服从正态分布,异常值被定义为,一组测定值中与平均值偏差超过3倍标准差的值
- 箱型图分析:异常值被定义为小于QL-1.5IQLR或大于QL+1.5IQLR的值
1.3一致性分析
数据不一致性,指数据的矛盾性、不相容性,主要发生在数据集成过程中。
2.数据特征分析
2.1 分布特征
定量数据分布分析:
常用手段:绘制频率分布表、频率分布直方图、茎叶图
频率分布分析步骤:
- 求极差【极差=最大值-最小值】
- 决定组距与组数【组数=极差/组距】
- 决定分点
- 列出频率分布表
- 绘制分布直方图
定性数据分布分析:
常用手段:绘制饼图、条形图
2.2 对比分析
概念:将两个相互联系的指标进行比较
用途:用于指标间的横纵向比较、时间序列的比较分析
两种形式:绝对数比较、相对数比较
绝对数比较
绝对数比较是利用绝对数进行对比,寻找差异
相对数比较
相对数比较是 通过2个有联系的指标计算的,用以反映客观现象之间的数量联系程度
- 结构相对数:将同一总体内的部分数值与全部数值对比求比重【如:产品合格率】
- 比例相对数:将同一总体内不同部分的数值比例进行对比,表明总体内各部分的比例关系【如:人口性别比例】
- 比较相对数:将同一时期两个性质相同的指标数值进行对比,说明同类现象在不同空间条件下数量对比关系【如:不同地区商品价格对比】
- 强度相对数:将两个性质不同但有一定联系的总量的指标进行对比,用以说明现象的强度、密度、普遍程度【如:人均国内生产总值用“人/元”表示】
- 动态相对数:将同一现象在不同时期的指标数值进行对比,用以说明发展方向和变化速度【如:增长速度】
- 计划完成程度相对数:某一时期实际完成数与计划数对比,用以说明计划完成程度
2.3 统计量分析
通常从集中趋势和离中趋势两个方面进行分析
集中趋势度量
- 均值
- 中位数
- 众数
离中趋势度量
- 极差
- 标准差
- 变异系数
- 四分位数间距
2.4 周期性分析
周期性分析,用以探索某个变量是否随着时间变化而呈现出的某种周期变化趋势
2.5 贡献度分析
2.6 相关性分析
相关性分析,分析连续变量之间线性相关程度的强弱,并用适当统计指标表示出来的过程
相关性分析方法
a:绘制散点图(单个变量)
b:绘制散点图矩阵(多个变量)
c:计算相关系数
- Pearson相关系数(两个连续性变量)
- Spearman秩相关系数(连续性变量取值服从正态分布)
- 判定系数(相关系数的平方)