这里是数据探索的总结
-
1.1数据质量分析
数据质量分析的首要任务就是检查原始数据中是否存在脏数据,一般是指不合规的数据。其中包括(缺失值,异常值,不一致的值)
-
1.1.1缺失值分析
(1)缺失值产生的原因:有些信息无法获取,或者信息的代价太大。
(2)缺失值的影响:数据挖掘建模将丢失大量有用的信息,不确定性会显著增强,包含空值的数据会使建模过程更加混乱,导致不可靠的输出。
-
1.1.2异常值分析
异常值分析是检验数据是否有录入错误以及含有不合理的数据。需要在数据建模之前将其剔除。异常值是指在样本中的个别值,其数值明显偏离其余的正常值。也称离群点,异常值分析也称离群点分析。
(1)简单统计量分析:先对变量做一个描述性统计,进而查看哪些数据不科学。
(2)原则:数据服从正态分布,在
原则下,异常值被定义为一组测定值中与平均值的偏差超过三倍标准差的值。
-
1.2数据特征分析
-
1.2.1分布分析
分布分析能解释数据的分布特征和分布类型。
1.定量数据的分布分析
对于定量变量而言,选择“组数”和“组宽”是做频率分布分析是最主要的瓦内特,一般按照以下步骤进行:
1)求极差