数据探索
数据质量分析
主要任务:检查原始数据中是否有脏数据。
脏数据:缺失值、异常值、不一致的值
缺失值分析
主要类型
①记录的缺失
②记录中某个字段信息的缺失
产生原因
①信息无法获取或获取代价高
②信息遗漏
③属性值不存在。如:未婚者配偶名字
缺失值影响
①丢失大量信息
②不确定性更加显著,模型规律难以把握
③使建模过程陷入混乱,导致不可靠输出
分析方法
①删除缺失记录
②对可能值进行插补
③不处理
异常值分析
任务:检验数据是否有录入错误以及含有不合理数据
异常值(离群点)定义:样本中个别值,其数值明显偏离其余观测值。
分析方法:简单统计量分析、3 σ \sigma σ原则、箱线图分析
简单统计量分析
常用统计量为最大值、最小值,用于判断这个变量取值是否超出合理范围。比如年龄199岁,则必定存在异常值。
3 σ \sigma σ原则
条件:数据服从正态分布
定义异常值方法:测定值与平均值的偏差超过三倍标准差的值
原理:
如不服从正态,则用测定值与平均值的n倍标准差来描述。
箱线图分析(客观、优越性、鲁棒性)
异常值定义标准:
鲁棒性:多达25%数据可以任意远而不干扰四分位数,所以异常值不能对这个标准施加影响。
一致性分析
指的是数据的矛盾性和不相容性。
特征分析
分布分析
定量变量分析
主要进行频率分布分析,分析内容:数据分布是否对称、特大或特小值的可疑值等
频率分布分析步骤:
①求极差
②决定组距和组数
③决定分点
④列出频率分布表
⑤绘制频率分布直方图
遵循的原则:
①各组互相排斥
②各组包含全部数据
③组间距最好相等
定性变量分析
绘制饼图或者条形图
对比分析
绝对数比较
同个指标进行绝对离差的对比
相对数比较
结构相对数:部分数据与总体数据求比重
比例相对数:总体中不同部分数值对比
比较相对数:同一时间性质相同指标对比
强度相对数:现象强度、密度、普遍度
计划完成度相对数
动态相对数
统计量分析
周期性分析
贡献度分析
相关性分析
person相关系数
条件:数据服从正态分布
spearman相关系数
判断系数
相关系数的平方
取值范围为0-1