异常值分析
1.简单统计量分析
先做描述性统计,分析离群点
2.3σ原则
如果数据服从正态分布,则距离平均值3之外的值出现概率为P<=0.003,为极小概率事件
箱型图分析
异常值通常被定义为Ql-1.5IQR或大于Qu+1.5IQR的值
Ql称为下四分位数,表示全部观察值中有四分之一数据比他小
Qu称为上四分位数,表示全部观察值中有四分之一数据比他大
IQR称为四分位数间距,是Qu-Ql,为样本的一半
一致性分析
数据不一致性是指数据的矛盾性与不相容性,类似于一个人有两个身份证号码
数据特征分析
-
分布分析
- 定量数据分布分析
- 求极差
- 决定组距与组数
- 决定分点
- 列出频率分布表
- 绘制频率分布直方图
- 要遵循的主要原则如下:
- 各组之间必须互斥
- 各组之和包含所有数据
- 各组组宽最好相等
- 定性数据分析
画扇形图和条形图分析
- 定量数据分布分析
-
对比分析
- 绝对数比较
- 相对数比较
- 结构相对数,部分数值/全部数值,求比重
- 比例相对数,同一总体内不同部分相互比较
- 比较相对数,将同一时期两个性质相同的指标数值进行比对,说明同类现象在不同空间条件下的数量对比关系
- 强度相对数,将两个性质不同但有一定联系的总量指标对比,说明现象的强度,密度和普遍程度
- 计划完成相对数
- 动态相对数,同一现象不同时期的对比
-
周期性分析
观察数据是否有周期性变化 -
贡献度分析
原理:帕累托法则,二八定律,通过绘图观察 -
统计量分析
- 集中趋势度量
- 均值:
- 中位数:
- 众数:样本中出现次数最多的值
- 均值:
- 集中趋势度量
-
离中趋势度量
- 极差:
极差 = 极大值 - 极小值 - 标准差:
- 变异系数:
- 四分位数间距:
- 极差:
-
相关性分析
- 直接绘制散点图
- 绘制散点图矩阵
- 直接绘制散点图
- 计算相关性系数
- Pearson相关系数
- Spearman秩相关系数
- Pearson相关系数
- 判定系数为相关系数的平方,用r^2表示:用来衡量回归方程对y的解释程度 r^2越接近1则x与y的相关性越强,越接近0则相关性越弱