R语言因子和缺失数据

目录

1.因子

1.1 介绍

1.2 使用

2.缺失数据

2.1 介绍

2.2 发现NA

2.3 移除NA

2.4 其他缺失数据 

2.4.1 NaN

2.4.2 Inf


1.因子

1.1 介绍

在R语言中,变量分为连续型变量,有序型变量和名义型变量,连续型变量是有可量化的课比较数据,有序型变量是不可量化的可比较的数据而名义型数据是不可比较的数据,其中名义型变量和有序型变量称为因子(factor),这些变量的可能值称为一个水平(level),由这些水平值构成的向量就是因子

1.2 使用

将数据转化为因子

> mtcars$cyl
 [1] 6 6 4 6 8 6 8 4 4 6 6 8 8 8 8 8 8 4 4 4 4
[22] 8 8 8 8 4 4 4 8 6 8 4
> table(mtcars$cyl)

 4  6  8 
11  7 14 

创建因子

> week<-factor(c("mon","tue","wen","thu","fri","sta","sun"))
>                
> week
[1] mon tue wen thu fri sta sun
Levels: fri mon sta sun thu tue wen

还可以自行定义水平值的比较关系

> week<-factor(c("mon","tue","wen","thu","fri","sta","sun"),ordered = T,levels = c("mon","tue","wen","thu","fri","sta","sun"))
> week
[1] mon tue wen thu fri sta sun
7 Levels: mon < tue < wen < thu < ... < sun

进行有规律的分组 ,比如将1到10分为两两一组

> num<-1:100
> num<-1:10
> cut(num,c(seq(0,10,2)))
 [1] (0,2]  (0,2]  (2,4]  (2,4]  (4,6]  (4,6] 
 [7] (6,8]  (6,8]  (8,10] (8,10]
Levels: (0,2] (2,4] (4,6] (6,8] (8,10]

2.缺失数据

2.1 介绍

在搜集数据中有一些数据因为数据搜集不完整等原因造成了数据缺失,在R中NA代表缺失值是一种非常重要的缺失数据,注意NA不等于0

2.2 发现NA

我们可以通过is.na函数发现缺失值的位置

> a<-c(NA,1,2,3,4,5,6)
> a
[1] NA  1  2  3  4  5  6
> is.na(a)
[1]  TRUE FALSE FALSE FALSE FALSE FALSE FALSE

2.3 移除NA

我们不希望由于个别的数据缺失导致整个数据集不能使用,所以大部分R的统计函数包含移除NA值的参数na.rm

> a<-c(NA,1,2,3,4,5,6)
> a
[1] NA  1  2  3  4  5  6
> sum(a,na.rm = T)
[1] 21

2.4 其他缺失数据 

2.4.1 NaN

NaN表示不可能的数据,例如分母上的0。

2.4.2 Inf

 Inf表示无穷,分为正负无穷大两种,分别表示无穷大和无穷小

  • 6
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值