数据处理 | MATLAB实现RF(随机森林)缺失数据填补
基本介绍
用于缺失值插补的单变量方法是估计值的简单方法,可能无法始终提供准确的信息。现实中收集的数据,几乎不可能是完美无缺的,往往会有一些缺失值,面对缺失值,很多人先择的方法是直接将包含缺失值的样本删除,这是一种有效的方法,但是有时候填补缺失值比之际丢弃样本有更好的效果。RF(随机森林)这样的算法可以帮助对缺失数据的值进行插补。
随机森林是一种用于分类或回归的集成学习方法,它通过在训练时构建大量决策树并获得作为单个树的类(分类)或平均预测(回归)模式的类。 随机森林纠正了决策树过度拟合训练集的趋势。
插补描述
对于一个有n个特征的数据来说,其中特征T有缺失,我们就将特征T当作标签,其他n-1个特征和原来的标签组成新的特征矩阵。对于特征T来说,他没有缺失的部分就是我们的y_train,这部分对应的标签就是X_train,缺失部分就是我们需要预测的部分,也即是y_predict,这部分对应的标签就是X_test,对于数据中有多个特征缺失的情况,需要从缺失值最少的特征开始填补(填补缺失值越少的特征需要的准确信息越少)
程序设计
- 使用 dataMissing 数据集估算 CustAge(数字)和 ResStatus(分类)预测变量的缺失值。