R语言因子和缺失数据

最新推荐文章于 2023-05-20 16:18:23 发布

ZDDWLIG

最新推荐文章于 2023-05-20 16:18:23 发布

阅读量542

点赞数 6

分类专栏： R语言文章标签： r语言开发语言

本文链接：https://blog.csdn.net/ZDDWLIG/article/details/122430876

版权

R语言专栏收录该内容

10 篇文章 5 订阅

订阅专栏

1.因子

1.1 介绍

在R语言中，变量分为连续型变量，有序型变量和名义型变量，连续型变量是有可量化的课比较数据，有序型变量是不可量化的可比较的数据而名义型数据是不可比较的数据，其中名义型变量和有序型变量称为因子（factor），这些变量的可能值称为一个水平（level），由这些水平值构成的向量就是因子

1.2 使用

将数据转化为因子

> mtcars$cyl
 [1] 6 6 4 6 8 6 8 4 4 6 6 8 8 8 8 8 8 4 4 4 4
[22] 8 8 8 8 4 4 4 8 6 8 4
> table(mtcars$cyl)

 4  6  8 
11  7 14

创建因子

> week<-factor(c("mon","tue","wen","thu","fri","sta","sun"))
>                
> week
[1] mon tue wen thu fri sta sun
Levels: fri mon sta sun thu tue wen

还可以自行定义水平值的比较关系

> week<-factor(c("mon","tue","wen","thu","fri","sta","sun"),ordered = T,levels = c("mon","tue","wen","thu","fri","sta","sun"))
> week
[1] mon tue wen thu fri sta sun
7 Levels: mon < tue < wen < thu < ... < sun

进行有规律的分组，比如将1到10分为两两一组

> num<-1:100
> num<-1:10
> cut(num,c(seq(0,10,2)))
 [1] (0,2]  (0,2]  (2,4]  (2,4]  (4,6]  (4,6] 
 [7] (6,8]  (6,8]  (8,10] (8,10]
Levels: (0,2] (2,4] (4,6] (6,8] (8,10]

2.缺失数据

2.1 介绍

在搜集数据中有一些数据因为数据搜集不完整等原因造成了数据缺失，在R中NA代表缺失值是一种非常重要的缺失数据，注意NA不等于0

2.2 发现NA

我们可以通过is.na函数发现缺失值的位置

> a<-c(NA,1,2,3,4,5,6)
> a
[1] NA  1  2  3  4  5  6
> is.na(a)
[1]  TRUE FALSE FALSE FALSE FALSE FALSE FALSE

2.3 移除NA

我们不希望由于个别的数据缺失导致整个数据集不能使用，所以大部分R的统计函数包含移除NA值的参数na.rm

> a<-c(NA,1,2,3,4,5,6)
> a
[1] NA  1  2  3  4  5  6
> sum(a,na.rm = T)
[1] 21

2.4 其他缺失数据

2.4.1 NaN

NaN表示不可能的数据，例如分母上的0。

2.4.2 Inf

Inf表示无穷，分为正负无穷大两种，分别表示无穷大和无穷小

ZDDWLIG

关注

6
点赞
踩
2

收藏

觉得还不错? 一键收藏
4
评论
R语言因子和缺失数据

目录1.因子1.1 介绍1.2 使用2.缺失数据2.1 介绍2.2 发现NA2.3 移除NA2.4 其他缺失数据2.4.1 NaN2.4.2 Inf1.因子1.1 介绍在R语言中，变量分为连续型变量，有序型变量和名义型变量，连续型变量是有可量化的课比较数据，有序型变量是不可量化的可比较的数据而名义型数据是不可比较的数据，其中名义型变量和有序型变量称为因子（factor），这些变量的可能值称为一个水平（level），由这些水平值构成的向量就是因子1.
复制链接

扫一扫

专栏目录