R语言数据结构-向量和因子

R语言数据结构-向量

  • Vector:是R中最基本的数据容器,同一向量中的所有元素必须是相同的模式,可以是数值,字符串,逻辑值等等。
    • a=c(1,2,3,4,5,6) / b=c("I","love","you")
    • 此时要注意,a中变量都是数值型,b中变量都是字符串类型,a中变量可以用来参与数据的计算,而b中的变量不能参与计算。
  • R会自动转换成一个数据类型,当同时含有数值和字符串时,会同时转化成字符串;当同时含有逻辑值和字符串时,也会转化为字符串。

向量的索引和取值

  • R中最重要与最常用的一个运算符是索引,使用它来选择给定向量中特定索引的元素来构成子向量。
> a = c(1, 2, 3, 4, 5)
> a[c(1, 2)]
[1] 1 2

向量常用函数

# mean()函数计算向量平均值
mean(c(1,2,3,4,5))
[1] 3

# median函数计算中位值
median(c(1,2,3,4,5))
[1] 3

# sum()函数计算向量总和
sum(c(1,2,3, 4, 5))
[1] 15

which○函数找到满足条件元素位置
a=c(1,2,3,4, 5)
which(a>3)
[1] 4 5

# sort()函数可以对向量进行排序
# grep()函数可以抓取你想要在元素里获得的对象,返回位置
# subset()函数对向量进行筛选
# rep()函数可以让我们重复向量或者向量中的元素 
```

NA与NULL值

  • R中有一对欢喜冤家,很容易搞混,NA与NULL值。
    • NA:表示缺失值
    • NULL:NULL代表不存在的值,即空白
  • NA:大多数情况下,我们要求函数跳过缺失值(na.rm=T)
  • NULL:会自动跳过空值NULL。

R语言数据结构-因子

  • Factor:因子的设计思想来源于分类变量,这种变量的值本质上不是数字,而是对应的分类
> x <- c(1,2,3,4,5,6)
> x.factor <- factor(x)
> x.factor
[1] 1 2 3 4 5 6
Levels: 1 2 3 4 5 6
> str(x.factor)
 Factor w/ 6 levels "1","2","3","4",..: 1 2 3 4 5 6
  • 连续变量与分类变量在统计分析数据挖掘中扮演着重要的角色,分析方法完全不同,因此一定要注意Factor带来的潜在错误。

因子的常见坑

  • 当我们在R中创建一个向量时,将向量转变为因子之后,如果想把因子转变为数值,as.numeric(),数值的本身会发生变化,所以需要先把因子转变为字符串,然后转变为数值。
> a <- c(1.22, 2.44, 1.33, 5.77, 8.81)
> x <- factor(a)
> x
[1] 1.22 2.44 1.33 5.77 8.81
Levels: 1.22 1.33 2.44 5.77 8.81
> as.numeric(x)
[1] 1 3 2 4 5
> as.numeric(as.character(a))
[1] 1.22 2.44 1.33 5.77 8.81
  • 大家好,新人报道,我是育种与生信小记公众号的作者,打算在知乎也开一个账号,同步分享一下知识,记录一下自己的学习过程。可以扫码关注我哦!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值