缺失值的处理——R语言

最新推荐文章于 2022-06-30 15:44:25 发布

troubleisafriend

最新推荐文章于 2022-06-30 15:44:25 发布

阅读量8.3k

点赞数 4

分类专栏：统计分析

本文链接：https://blog.csdn.net/troubleisafriend/article/details/48067383

版权

本文介绍了使用R语言处理缺失值的步骤和方法，包括识别缺失值、探索缺失值模式、多重插补等，并通过VIM和mice包对哺乳动物睡眠数据集进行实例分析。探讨了完全随机缺失、随机缺失和非随机缺失的分类，以及如何利用complete.cases()函数、md.pattern()和图形工具如aggr()、matrixplot()来理解和处理缺失数据。

摘要由CSDN通过智能技术生成

本文主要介绍VIM和mice包，使用数据集为VIM包提供的哺乳动物睡眠数据sleep，主要研究62种哺乳动物的睡眠、生态学变量和体质变量间的关系。
睡眠变量包含睡眠中做梦时（Dream）、不做梦的时长（NonD）以及它们的和（Sleep）。体质变量包含体重（BodyWgt，单位为千克）、脑重（BrainWgt，单位为克）、寿命（Span，单位为年）和妊娠期（Gest，单位为天）。生态学变量包含物种被捕食的程度（Pred）、睡眠时暴露的程度（Exp）和面临的总危险度（Danger）。生态学变量以从1（低）到5（高）的5分制进行测量。

1 处理缺失值的步骤

一个完整的处理方法通常包含以下几个步骤：
(1) 识别缺失数据；
(2) 检查导致数据缺失的原因；
(3) 删除包含缺失值的实例或用合理的数值代替（插补）缺失值。
缺失数据的分类：完全随机缺失（MCAR）、随机缺失（MAR）、非随机缺失（NMAR）

2 识别缺失值

NA(不可得)代表缺失值，NaN(不是一个数)代表不可能的值。符合Inf和-Inf分别代表正无穷和负无穷。识别函数分别为is.na、is.nan()、is.infinite()。
VIM包函数中complete.cases()可用来识别矩阵或数据框中没有缺失值的行。若每行都包含完整的实例，则返回TRUE的逻辑向量；若每行有