R语言学习(2)-数据类型_r语言chr-CSDN博客

本文链接：https://blog.csdn.net/cclovezbf/article/details/112006949

学习主要参考菜鸟教程 https://www.runoob.com/r/r-data-types.html 加上一些个人理解，可以直接去菜鸟教程直接看

R 语言中的最基本数据类型主要有三种：

数字
逻辑
文本

首先我们要明白R语言是做什么的，R语言貌似主要做图计算。。。。暂时理解后面学习了再说

一、数字类型

赋值方式有三种 = -> <-

a = 1 
b <- 2
3 -> c
d = a  //因为a 已经有值a=1，所以可以把a赋值给d
f = g  //g不知道是啥 不是数字也不是另外一种数据类型文本 报错【错误: 找不到对象'g'】

二、逻辑类型

注意：R 语言区分大小写，只有TRUE和FALSE，没有true，false ，True

三、文本类型

可以把它看作是java的string类型就是字符串，

四、对象类型

按对象类型来分是以下 6 种：

向量（vector）可以理解为一维数组

用法： a = c("1"，2，FALSE) 这个等式代表把向量赋值给a

注意事项：貌似如果向量里面的类型不一致会自动转 chr>num>logi

特别是 FALSE在转为chr的时候成为字符串"FALSE"，在转为num的时候成为0

> a = c("1",2,FALSE) //[1] "1"     "2"     "FALSE"
> b = c(1,2,TRUE)    //[1] 1 2 1
> c = c(TRUE,FALSE)  //[1]  TRUE FALSE
> b2 = c(1,2)
> b3 = c(1,2,3)
> b4 = c(1,2,3,4)
> a + b  //Error in a + b : 二进列运算符中有非数值参数 因为a里面元素不是num
> b + b3 //[1] 2 4 4    前面这个[1]暂时不管 后面的121 和123相同下标相加
> b2+ b3 //[1] 2 4 4 //Warning message:In b2 + b3 : 长的对象长度不是短的对象长度的整倍数其实是121+123
> b2+ b4 //[1] 2 4 4 6  //其实就是1212+1234
> d = c(a,b,c)  //[1] "1"     "2"     "FALSE" "1"     "2"     "1"     "TRUE"  "FALSE"
> a =1          //注意此时a的值发生变化 但是d 没有！！
> d[1]          //[1] "1" //注意！！下标从1开始不是0！！

向量取值

> a = c(10, 20, 30, 40, 50)
> a[2]
[1] 20
> a[1:4] # 取出第 1 到 4 项，包含第 1 和第 4 项
[1] 10 20 30 40
> a[c(1, 3, 5)] # 取出第 1, 3, 5 项
[1] 10 30 50
> a[c(-1, -5)] # 去掉第 1 和第 5 项
[1] 20 30 40
>a[-1] #不要第一项 去除2345项

向量支持标量计算：

> c(1.1, 1.2, 1.3) - 0.5 //这个意思是说向量中所有元素都-0.5
[1] 0.6 0.7 0.8
> a = c(1,2)
> a ^ 2                  //这个意思是说对向量中所有元素都*2
[1] 1 4

函数运算

> a = c(1, 3, 5, 2, 4, 6)
> sort(a)                    //对向量的元素排序
[1] 1 2 3 4 5 6
> rev(a)                     //对向量的元素进行反转
[1] 6 4 2 5 3 1
> order(a)                   //order() 函数返回的是一个向量排序之后的下标向量。
[1] 1 4 2 5 3 6
> a[order(a)]                //这个等价于 sort(a)
[1] 1 2 3 4 5 6

向量生成

> seq(1, 9, 2)  //生成1-9的向量，步长是2
[1] 1 3 5 7 9  
> seq(0, 1, length.out=3) //生成等差数列 最后一个代表生成几个元素包含start end
[1] 0.0 0.5 1.0
> seq(1,10,length.out = 10)    //简单的来看就是 (end-start)/(out-2)=步长  -2是因为包含头尾两个
 [1]  1  2  3  4  5  6  7  8  9 10
> seq(1,10,length.out = 5)
[1]  1.00  3.25  5.50  7.75 10.00
> seq(1,10,length.out = 1)
[1] 1
> rep(0, 5)                //rep 是 repeat（重复）的意思，可以用于产生重复出现的数字序列
[1] 0 0 0 0 0

向量统计

sum	求和
mean	求平均值
var	方差
sd	标准差
min	最小值
max	最大值
range	取值范围（二维向量，最大值和最小值）

> a=seq(1,10,1)
> sum(a)       //总和
[1] 55        
> mean(a)      //平均值  
[1] 5.5
> var(a)       //方差
[1] 9.166667
> sd(a)
[1] 3.02765    //标准差
> min(a)
[1] 1
> max(a)
[1] 10
> range(a)    //最小和最大值
[1]  1 10

方差公式是一个数学公式，是数学统计学中的重要公式，应用于生活中各种事情，方差越小，代表这组数据越稳定，方差越大，代表这组数据越不稳定

标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据，标准差未必相同

看样子方差和标准差应该差不多，那么为什么要又标准差呢？由于方差是数据的平方，与检测值本身相差太大，人们难以直观的衡量，所以常用方差开根号换算回来这就是我们要说的标准差。

向量中常会用到 NA 和 NULL ，这里介绍一下这两个词语与区别：

NA 代表的是"缺失"，NULL 代表的是"不存在"。
NA 缺失就想占位符，代表这里没有一个值，但位置存在。
NULL 代表的就是数据不存在。

> length(c(NA, NA, NULL))
[1] 2
> c(NA, NA, NULL, NA)
[1] NA NA NA

逻辑型

逻辑向量主要用于向量的逻辑运算，例如：

> c(1, 2, 3) > 2
[1] FALSE FALSE  TRUE

个人测试，感觉R语言对类型好像不太敏感会自动转化 chr类型"1"会自动转化为num的1 还有FALSE->0

> d=c("1","2")
> d>1
[1] FALSE  TRUE

> c=c(FALSE,TRUE)
> c
[1] FALSE  TRUE
> c<1
[1]  TRUE FALSE

which 函数是十分常见的逻辑型向量处理函数，可以用于筛选我们需要的数据的下标:

> a = c(1, 2, 3)
> b = a > 2
> print(b)
[1] FALSE FALSE  TRUE
> which(b)
[1] 3
> which.max(a)        //查看哪个下标是最大值，记住下标从1开始
[1] 3

例如我们需要从一个线性表中筛选大于等于 60 且小于 70 的数据：

> vector = c(10, 40, 78, 64, 53, 62, 69, 70)
> vector
[1] 10 40 78 64 53 62 69 70
> which(vector>60 & vector<70)  //which获取>60 <70的坐标
[1] 4 6 7
> vector[which(vector>60 & vector<70)]
[1] 64 62 69

逻辑函数还有all 和any等

> all(c(TRUE, TRUE, TRUE))
[1] TRUE
> all(c(TRUE, TRUE, FALSE))
[1] FALSE
> any(c(TRUE, FALSE, FALSE))
[1] TRUE
> any(c(FALSE, FALSE, FALSE))
[1] FALSE

all() 用于检查逻辑向量是否全部为 TRUE，any() 用于检查逻辑向量是否含有 TRUE。

———————————————————————————————————————————————————————————————————————————————————————————

字符串

字符串数据类型本身并不复杂，这里注重介绍字符串的操作函数：

> toupper("Runoob") # 转换为大写
[1] "RUNOOB"
> tolower("Runoob") # 转换为小写
[1] "runoob"
> nchar("中文", type="bytes") # 统计字节长度
[1] 4
> nchar("中文", type="char") # 总计字符数量
[1] 2
> substr("123456789", 1, 5) # 截取字符串，从 1 到 5
[1] "12345"
> substring("1234567890", 5) # 截取字符串，从 5 到结束
[1] "567890"
> as.numeric("12") # 将字符串转换为数字
[1] 12
> as.character(12.34) # 将数字转换为字符串
[1] "12.34"
> strsplit("2019;10;1", ";") # 分隔符拆分字符串
[[1]]
[1] "2019" "10"   "1"
> gsub("/", "-", "2019/10/1") # 替换字符串
[1] "2019-10-1"

R 支持 perl 语言格式的正则表达式：详情https://www.runoob.com/perl/perl-regular-expressions.html 没学过perl。。。暂时不研究

> gsub("[[:alpha:]]+", "$", "Two words") //
[1] "$ $"

矩阵 https://www.runoob.com/r/r-matrix.html

R 语言为线性代数的研究提供了矩阵类型，这种数据结构很类似于其它语言中的二维数组，但 R 提供了语言级的矩阵运算支持。

矩阵里的元素可以是数字、符号或数学式。首先看看矩阵的生成：

一个 M x N 的矩阵是一个由 M（row）行 和 N 列（column）元素排列成的矩形阵列。

R 语言的矩阵可以使用 matrix() 函数来创建，语法格式如下：

matrix(data = NA, nrow = 1, ncol = 1, byrow = FALSE,dimnames = NULL)

参数说明：

data 向量，矩阵的数据备注：教程上说明了向量，那么应该只能是向量
nrow 行数
ncol 列数
byrow 逻辑值，为 FALSE 按列排列，为 TRUE 按行排列。个人觉得一般是按行摆，结果不是！！！默认FALSE 大写！！
dimname 设置行和列的名称

创建矩阵

> vector=c(1:6)
> vector
[1] 1 2 3 4 5 6
> matrix(vector, 2, 3)
     [,1] [,2] [,3]
[1,]    1    3    5
[2,]    2    4    6
> matrix(vector, 2, 3,FALSE)    //和FALSE一样 默认按列排的
     [,1] [,2] [,3]
[1,]    1    3    5
[2,]    2    4    6
> matrix(vector, 2, 3,TRUE)
     [,1] [,2] [,3]
[1,]    1    2    3
[2,]    4    5    6
> matrix(vector, nrow = 2, ncol = 3,TRUE,list(list("row1","row2"), list("col1","col2","col3")))    //知道好row和行命名
     col1 col2 col3
row1    1    2    3
row2    4    5    6
//备注如果学过scala 可以知道如果制定了参数名 nrow = 2 这种 参数的位置是可以互换的
//可以只指定行数或者列数，会自动计算行列。。。

转置矩阵

R 语言矩阵提供了 t() 函数，可以实现矩阵的行列互换。

例如有个 m 行 n 列的矩阵，使用 t() 函数就能转换为 n 行 m 列的矩阵。

> ma1=matrix(vector, nrow = 2, ncol = 3,TRUE,list(list("row1","row2"), list("col1","col2","col3")))
> ma1
     col1 col2 col3
row1    1    2    3
row2    4    5    6
> t(ma1)
     row1 row2
col1    1    4
col2    2    5
col3    3    6

访问矩阵元素

先问下还记得如何访问向量元素吗？ vector=seq(1:10) vector[1] vector[1:10] 取1-10个元素 vector[-2] 所有元素就不要第二个元素

如果想获取矩阵元素，可以通过使用元素的列索引和行索引，类似坐标形式。

# 定义行和列的名称
rownames = c("row1", "row2", "row3", "row4")
colnames = c("col1", "col2", "col3")

# 创建矩阵
P <- matrix(c(3:14), nrow = 4, byrow = TRUE, dimnames = list(rownames, colnames))
print(P)
> P
     col1 col2 col3
row1    3    4    5
row2    6    7    8
row3    9   10   11
row4   12   13   14
# 获取第一行第三列的元素
print(P[1,3])

# 获取第四行第二列的元素
print(P[4,2])

# 获取第二行
print(P[2,])

# 获取第三列
print(P[,3])

#根据列名和行名获取数据
> P["row1"]
[1] NA
> P["row1",]
col1 col2 col3 
   3    4    5 

# 如果采用P[1] = 3 P[2]=6  应该是会默认为第n行第一个元素

矩阵计算

大小相同（行数列数都相同）的矩阵之间可以相互加减，具体是对每个位置上的元素做加减法。矩阵的乘法则较为复杂。两个矩阵可以相乘，当且仅当第一个矩阵的列数等于第二个矩阵的行数。

矩阵加减和乘除

> ma1=matrix(c(7, 9, -1, 4, 2, 3), nrow = 2)
> ma1
     [,1] [,2] [,3]
[1,]    7   -1    2
[2,]    9    4    3
> ma2=matrix2 <- matrix(c(6, 1, 0, 9, 3, 2), nrow = 2)
> ma2
     [,1] [,2] [,3]
[1,]    6    0    3
[2,]    1    9    2
> ma1+ma2                //同坐标下数字相加
     [,1] [,2] [,3]
[1,]   13   -1    5
[2,]   10   13    5
> ma1-ma2                //同坐标下数字相减
     [,1] [,2] [,3]
[1,]    1   -1   -1
[2,]    8   -5    1
> ma1*ma2                //暂时无法理解 ma1 3列 ，ma2 2行不等！！！！！
     [,1] [,2] [,3]
[1,]   42    0    6
[2,]    9   36    6
> ma1/ma2
         [,1]      [,2]      [,3]
[1,] 1.166667      -Inf 0.6666667
[2,] 9.000000 0.4444444 1.5000000

乘法单独说下第一个矩阵的列数等于第二个矩阵的行数 A有3列=B有3行

矩阵的四则运算与向量基本一致，既可以与标量做运算，也可以与同规模的矩阵做对应位置的运算。例如：

数组

数组其实和我们java的数组一样，存放同类型元素，可以有多维数组，但是一般也就三维。。

创建方式

> dim1 <- c('a1','a2')
> dim2 <- c('b1','b2','b3')
> dim3 <- c('c1','c2','c3','c4')
> array <- array(data = 1:24, dim = c(2,3,4),dimnames = list(dim1,dim2,dim3))

dim1一维的名称 dim2 二维名称 dim3 三位的名称

array 函数生产数组的函数

data 你这个数组的数据

dim 你要形成几维，同时你每一维维度大小

dimnames 每个维度名称

注意 a <- array(1:8,c(2,2,2),list(list("a1","a2"),list("b1","b2"),list("c1","c2"))) 这样也是可以的就是dimnames 可以是list(list(),list())

数据框

data <- data.frame()

> patientId <- c(1:4)
> age <- c(25,34,28,52)
> diabetes <- c("Type1","Type2","Type3","Type2")
> status <- c("poor","Imporved","Excellent","poor")
> patientsData <- data.frame(patientId,age,diabetes,status)
> patientsData
  patientId age diabetes    status
1         1  25    Type1      poor
2         2  34    Type2  Imporved
3         3  28    Type3 Excellent
4         4  52    Type2      poor
> patientsData[1:2]   //根据列的排列取第几列
  patientId age
1         1  25
2         2  34
3         3  28
4         4  52
> patientsData[c("patientId","age")] //根据列名取数
  patientId age
1         1  25
2         2  34
3         3  28
4         4  52
> patientsData$age  //根据$符号取数据
[1] 25 34 28 52

列表 list

> g <- "my first list"
> h <- c(1,2,3,4,5)
> j <- matrix(data = 1:10,nrow = 5,ncol = 2 ,byrow = TRUE)
> k <- c("one","two","three")
> l <- list(g,h,j,k)
访问列表
>  l[1]
[[1]]
[1] "my first list"  //这个取得是这个列表第一个的组成元素。是一个子列表

>  l[[1]]  //这个才是正宗的， 应该和上面的不一样。。。 这个取得是列表第一个的值
[1] "my first list"

> mode(l[1])
[1] "list"
> mode(l[[1]])
[1] "character"

> stu <- list(stu.id=1234,stu.name="cc",stu.mark=c(99,88,77))
> stu
$stu.id
[1] 1234

$stu.name
[1] "cc"

$stu.mark
[1] 99 88 77

> names(stu) <- c("id","name","mark") //修改stu属性的名称
> stu
$id
[1] 1234

$name
[1] "cc"

$mark
[1] 99 88 77

> stu$gf <- "zbf"  //增加stu的属性gf名字
> stu
$id
[1] 1234

$name
[1] "cc"

$mark
[1] 99 88 77

$gf
[1] "zbf"

> stu <- st[-4] //去掉gf属性。注意这里用的是[] 不是[[]]

unlist 把所有元素转化为向量元素
> stu
$id
[1] 1234

$name
[1] "cc"

$mark
[1] 99 88 77

$gf
[1] "zbf"

> unlist(stu)
    id   name  mark1  mark2  mark3     gf 
"1234"   "cc"   "99"   "88"   "77"  "zbf"