从今天开始要记录自己的学习笔记啦~~~ 2020.3.5
缺失值的处理方法——多重插补法
1 基本思想
利用蒙特卡洛模拟法(MCMC)将原始数据插补成几个完整数据集,在每个数据集中利用线性回归(lm)或广义线性规格(glm)等方法进行插补建模,再将这些完整的模型整合到一起,评价插补模型的优劣并返回完整数据集。该方法主要利用程辑包mice中的mice( )进行。
大致步骤如下:
缺失数据集——MCMC估计插补成几个数据集——每个数据集进行插补建模(glm、lm模型)——将这些模型整合到一起(pool)——评价插补模型优劣(模型系数的t统计量)——输出完整数据集(compute)
2mice函数基本书写格式
R语言输入help(mice)可获取详细信息
mice( data, m=5, method=vetor(“charater”,length=ncol(data)), seed=NA,defaultMethod=c(“pmm”,“logger”,“polyreg”,“poor”)…)
data:一个包含完整数据和缺失数据的矩阵或数据框
m:指定的多重插补数,默认值为5
method:一个字符串,或者长度与数据集列数相同的字符串向量,用于指定数据中的每一列采用的插补方法,单一字符串指定所有列用相同的方法插补,字符串向量指定不同列采用不同的方法插补,默认插补法取决于需要插补的目标列,并由defaultMethod指定参数
seed:一个整数,用于函数set.seed( )的参数,默认值为NA
defaultMethod:一个向量,用于指定每个数据集采用的插补建模方法,可供