本内容整理自coursera,欢迎交流转载。
1 缺失数据的影响
有些数据可能有某些特征参数缺失,这不仅影响我们的训练模型,还会影响我们利用模型进行预测。
2 解决办法
2.1 删除缺失项
- 删除含有特征参数缺失的数据(但是如果很多数据特征参数缺失,我们会删除大量数据,一般超过三分之一的数据被删除的话不宜采用此法)
- 删除某个特征(如果仅仅是缺失项集中在了某几个特征,我们可以把所有数据的这些特征参数都删除,但是删除特征过多的时候不宜采用此法)
2.1 猜测参数
我们可以根据其他项猜测缺失项可能的值。比如可以用平均值,多数法。
2.3 自适应法
基本原则:分类误差最小(贪心)