一、数据质量分析
数据质量分析的主要任务是检查原始数据中是否存在脏数据,主要包括缺失值、异常值和不一致值
缺失值分析
使用简单的统计分析,可以得到含有缺失值的属性的个数。
异常值分析
(1).简单统计量分析
(2).3倍标准差原则
(3)箱图分析
不一致分析
二、数据特征分析
分布分析
(1)定量数据分布分析:频率分布直方图、茎叶图
(2)定性数据分布分析:绘制饼图、条形图
对比分析
统计量分析
(1)集中趋势分析:均值、中位数、众数
(2)离散趋势分析:极差、标准差、变异系数、四分位数间距
周期性分析
贡献度分析
相关性分析
(1)绘制散点图
(2)绘制散点图矩阵
(3)计算相关系数