一 异常值的分析
1. 简单统计量分析:极差,最大值,最小值
2. 3σ原则
如果数据服从正态分布,在3σ原则下,异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值。
如果数据不服从正态分布,也可以用标准差作为σ来进行倍数描述
3. 箱型图分析
在箱型图中,异常值被定义为小于QL-1.5IQR或大于QU+1.5IQR的值
QL:下四分位数,全部观察值中有四分之一的数据取值比它小
QU:上四分位数,全部观察值中有四分之一的数据取值比它大
IQR:是上四分位数和下四分位数之差,其间包含了全部观察值的一半
二 一致性分析
理解:数据的矛盾性、不相容性
不一致书产生的原因:主要发生在数据集成过程,包括不同数据源集成、数据存放未及时更新
三 数据特征分析
1. 分布分析
定量数据分析:频率分布表、频率分布直方图、茎叶图
定性数据分析:根据变量分类类型来分组,包括饼状图、条形图
2. 对比分析
(1)绝对数比较:利用绝对数进行对比,寻找差异
(2)相对数分析:利用两个有联系的指标对比计算,反映客观现象之间数量联系程度的综合指标
结构相对数:总体内部分数值/总体全部数值,eg.产品合格率
比例相对数:总体内不同部分的数值进行对比,eg.性别比例,投资消费比例
比较相对数:同一时期两个性质相同的指标进行对比,eg.不同行业某项指标对比
强度相对数:性质不同但有一定联系的总量指标进行对比,eg.元/人
计划完成程度相对数:某一时期实际完成数/计划数
动态相对数:同一现象在不同时期的指标数值进行对比,eg.发展速度,增长速度
3. 统计量分析
集中趋势度量:均值、中位数、众数
离中趋势度量:极差、标准差、变异系数、四分位数间距
4. 周期性分析
是探索某个变量是否随着时间的变化呈现出某种周期性变化趋势
包括:月度周期、季度周期、周度周期、天周期、小时周期
5. 贡献度分析
又称帕累托分析,又称“八二法则”
帕累托图
6. 相关性分析
使用工具:散点图、散点图矩阵
相关性系数:
Pearson相关系数(连续变量)
Spearman相关系数(服从正态分布)
Spearman秩相关系数(不服从正太分布)
判定系数:相关系数的平方,用来衡量回归方程对y的解释程度