当采样数据维度过大,如何进行降维处理、缺失值处理等都是要解决的问题
数据预处理主要包括:数据筛选、数据变量转换、缺失值处理、坏数据处理、数据标准化、主成分分析、属性选择、数据规约等
数据质量分析
常见的脏数据:
*缺失值
*异常值
*不一致的值
*重复数据及含有特殊符号(如#,¥,*的数据)
解决办法:
*缺失值
is.na()
complete.cases()
1)删除法 data[,-p]
2)替换法 均值、中位数或众数
3)插补法 回归模型、多重插补
*异常值
1)简单统计量分析----------最大值、最小值-------------判断变量取值是否在正常范围内
2)3σ原则---------------------异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值
3)箱型图---------------------小于下四分位数-1.5四分位数间距或
大于上四分位数+1.5四分位数间距
四分位数间距=上四分位数-下四分位数
*不一致的值---------------