缺失的类型
- 完全随机型
- 随机型
- 非随机型
缺失值处理方法:删除记录,数据补齐,不处理
删除
缺失数据量相对于整个数据集来说较少时,可以直接删除包含缺失值的记录。
缺点:丢失了部分信息
数据补齐
均值,众数,中位数,用新的类型填充
用数据拟合:K近邻,K_means, 回归,EM
C4.5
- 数据补齐以主观估计值补充缺失值,不一定符合事实。
不处理
有些模型可以训练包含缺失值的数据
未完,待续
参考文献
数据分析中的缺失值处理
缺失的类型
缺失值处理方法:删除记录,数据补齐,不处理
缺失数据量相对于整个数据集来说较少时,可以直接删除包含缺失值的记录。
缺点:丢失了部分信息
均值,众数,中位数,用新的类型填充
用数据拟合:K近邻,K_means, 回归,EM
C4.5
有些模型可以训练包含缺失值的数据
未完,待续
参考文献
数据分析中的缺失值处理