缺失值根据情况可以删除对应的行或者列(参见:R语言如何删除数据集中包含缺失数据NA的行?),但是在需要尽量保持原始数据的情况下,可以使用插值的方式进行处理。
使用均值/中位数进行插值
Hmisc包:
impute(vector_data, mean)
impute(vector_data, median)
# 直接赋值
impute(vector_data, 100)
使用预测的方式进行插值
预测方法有:
- kNN(package:DMwR)
- CART(package:rpart)
- Random forest(package:mice)