数据预处理R

qq_57518649

已于 2023-04-20 10:42:19 修改

阅读量141

点赞数

文章标签： html 前端

于 2023-04-19 22:35:11 首次发布

本文链接：https://blog.csdn.net/qq_57518649/article/details/130254003

版权

文章介绍了如何在R中检测和处理缺失值，包括使用is.na函数检查缺失值，通过mice包分析缺失模式，以及删除法、替换法和多重插补法等处理策略。多重插补是一种有效的方法，它利用MCMC和回归模型来恢复缺失数据。

摘要由CSDN通过智能技术生成

# 1.缺失值： is.na(x) # 输出T：存在缺失值；F：无

data(algae)            # 加载数据集
sum(is.na(algae))      # 总缺失值
sum(!complete.cases(algae))   # 有缺失值的行数
algae[!complete.cases(algae),]  # 显示有缺失值的行
summary(algae)         # 判断分类变量缺失值个数并进行描述性统计

# 1.1缺失模型判断

处理缺失值之前先判断缺失模式：完全随机、随机、完全非随机。

完全随机：较为理想状态，统计意义上缺失值是独立的，即不依赖任何变量。

随机缺失：依赖其他变量，并不由含有缺失值的变量本身决定。

完全非随机：较为严重的问题，依赖变量本身，需要从数据收集过程寻找原因。

# mice包判断缺失模式
md.pattren(x)

# 2.可视化处理

matrixplot(a)

# 3. 缺失值处理方法

删除法：适用于完全随机缺失，但会损失样本，不建议使用。

替换法：如均值替换法。会改变整体数据的统计性质。

插补法：多重插补法。利用蒙特卡洛模拟法（MCMC）将原始数据集插补为几个完整数据集，在每个新数据集用线性回归（lm）或广义线性回归（glm）等方法进行插补建模，再整合到一起。

mice(data,m=5,seed=1234)
# m:多重插补数，默认5；seed：产生固定随机数

qq_57518649

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫