快速掌握R语言中类SQL数据库操作技巧

最新推荐文章于 2023-01-31 00:17:42 发布

Sim1480

最新推荐文章于 2023-01-31 00:17:42 发布

阅读量657

点赞数 1

在数据分析中，往往会遇到各种复杂的数据处理操作：分组、排序、过滤、转置、填充、移动、合并、分裂、去重、找重、填充等操作。这时候R语言就是一个很好的选择：R可以高效地、优雅地解决数据处理操作。（本章节为R语言入门第二部分总结篇：数据操作）

本章内容布局思路：思来想后，想到SQL查询的查询思路可以作为本章节的布局思路

1.了解表结构/数据结构
2.对表中的一些数据做出修改、替换、甚至生成新字段
3.from：数据合并/连接
4.where：条件筛选/过滤
5.group：分组
6.having和select：呈现不明显
7.order：排序
8.其他补充

1. 初识R语言支持的数据类型

1.1 向量 Vector : c()

1.2 矩阵 Matrix: matrix()

1.3 数据框 DataFrame: data.frame()

1.4 时间序列 XTS: xts()

1.5 因子Factor：factor（补充）

2.查看数据概况

summary()和str()

3.修改/替换/重定义数据

4.数据合并

3.1 向量合并

3.2 cbind列合并（等长）

3.3 rbind行合并

3.4 merge

3.5 补充：集合操作

4.过滤/筛选

4.1 缺失值处理

4.2 数据增减

4.3 数值分段cut

5.分组操作

5.1 aggregate语法

5.2 aggregate分组计算

5.3 aggregate分组计算（formula形式）

6. 排序order

7. 计数table

8. 分裂split

9. 去重与找重unique

10.转置

1. 初识R语言支持的数据类型

开始之前，需要先了解一下R语言支持的数据类型，以及这些常用类型的特点。以下4种类型是最常用的：向量、矩阵、数据框、时间序列。

可参考↓↓

向量 Vector : c()
矩阵 Matrix: matrix()
数据框 DataFrame: data.frame()
时间序列 XTS: xts()
因子Factor：factor（补充）

640?wx_fmt=png

（图片来自于粉丝日志）

1.1 向量 Vector : c()

> x <- c(1:10)	
> x	
 [1]  1  2  3  4  5  6  7  8  9 10

1.2 矩阵 Matrix: matrix()

#矩阵用法	
matrix(data = NA, nrow = 1, ncol = 1, byrow = FALSE,dimnames = NULL) #表示生成1行，1列的一个矩阵，其中仅仅包含一个元素“NA”	

	
#---示例---#	
> matrix(c(1,2,3, 11,12,13), nrow = 2, ncol = 3, byrow = TRUE, dimnames = list(c("row1", "row2"), c("C.1", "C.2", "C.3")))	
     C.1 C.2 C.3	
row1   1   2   3	
row2  11  12  13	
#nrow = 2和ncol = 3 定义2x3的2行3列矩阵	
#byrow = TRUE 是控制矩阵中的数据c(1,2,3, 11,12,13)按照行的顺序排列，默认按照列排列	
#dimnames = list(c("row1", "row2"), c("C.1", "C.2", "C.3")) 定义矩阵行名和列名

1.3 数据框 DataFrame: data.frame()

#其中" <- "是赋值的意思，将向量c(11:15)赋值给对象x	
> x <- c(11:15)  	
> y <- c(1:5)	

	
 #将向量x和y合并存储到数据框中，并重命名为xf和yf	
> data.frame(xf = x, yf = y)	
   xf yf	
1  11  1	
2  12  2	
3  13  3	
4  14  4	
5  15  5

1.4 时间序列 XTS: xts()

> library(xts)	
> x <- c(11:15) 	
> xts(x,order.by=as.Date('2019-09-14')+1:5)	
           [,1]	
2019-09-15   11	
2019-09-16   12	
2019-09-17   13	
2019-09-18   14	
2019-09-19   15

关于xts类型的详细介绍，请参考文章《可扩展的时间序列xts》http://blog.fens.me/r-xts/

#factor是numeric数值类型	
#factor(x = character(), levels, labels = levels,exclude = NA, ordered = is.ordered(x), nmax = NA)	
#注意：levels与labels的对应关系，其中levels发挥角标作用，与labels位置对应	

	
#例1	
> x <- c("Man", "Male", "Man","Lady","Female")	
> xf <- factor(x, levels = c("Male","Man" ,"Lady","Female"),labels = c("Male","Male","Female","Female"))	
> xf	
[1] Male   Male   Male   Female Female	
Levels: Male Female	

	
#例2：因子在一定程度上可以理解为分类变量	
> x <-rep(c("A","B"),5)	
> x_f <- factor(x);x_f	
 [1] A B A B A B A B A B	
Levels: A B	
> summary(x_f)	
A B 	
5 5 	
> str(x_f)	
 Factor w/ 2 levels "A","B": 1 2 1 2 1 2 1 2 1 2	
> sum(x_f)	
Error in Summary.factor(c(1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L), na.rm = FALSE) : 	
  ‘sum’ not meaningful for factors	
> 	
> xf <- factor(x,levels=c("A","B"),labels = c("1","2"));xf	
 [1] 1 2 1 2 1 2 1 2 1 2	
Levels: 1 2	
> summary(xf)	
1 2 	
5 5 	
> str(xf)	
 Factor w/ 2 levels "1","2": 1 2 1 2 1 2 1 2 1 2	
> sum(xf)	
Error in Summary.factor(c(1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L, 1L, 2L), na.rm = FALSE) : 	
  ‘sum’ not meaningful for factors

> data(iris)	
> head(iris,10)	
   Sepal.Length Sepal.Width Petal.Length Petal.Width Species	
1           5.1         3.5          1.4         0.2  setosa	
2           4.9         3.0          1.4         0.2  setosa	
3           4.7         3.2          1.3         0.2  setosa	
4           4.6         3.1          1.5         0.2  setosa	
5           5.0         3.6          1.4         0.2  setosa	
6           5.4         3.9          1.7         0.4  setosa	
7           4.6         3.4          1.4         0.3  setosa	
8           5.0         3.4          1.5         0.2  setosa	
9           4.4         2.9          1.4         0.2  setosa	
10          4.9         3.1          1.5         0.1  setosa	

	

	
> summary(iris)	
  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width          Species  	
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100   setosa    :50  	
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300   versicolor:50  	
 Median :5.800   Median :3.000   Median :4.350   Median :1.300   virginica :50  	
 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199                  	
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800                  	
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500                  	

	

	
> str(iris)	
'data.frame':  150 obs. of  5 variables:	
 $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...	
 $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...	
 $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...	
 $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...	
 $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...

3.修改/替换/重定义数据

修改指定单元格，修改指定列，within 关联修改

leadership$age[leadership$age==99] <- NA	
leadership$agecat2 <- NA	
leadership <- within(leadership,{ 	
agecat2[age>75] <- "Elder"	
  agecat2[age>=55 & age<=75] <- "Middle Aged"	
  agecat2[age<55] <- "Young"}	
)

4 数据合并

数据操作中，数据（集）合并是经常被用到。例如：合并来源不同，结构相似的两个表格

3.1 向量合并

#一维向量合并直接将要合并的变量以","分割放到c()中即可。	
> x <- c(11:20)	
> y <- c(1:10)	
> c(x,y)	
 [1] 11 12 13 14 15 16 17 18 19 20  1  2  3  4  5  6  7  8  9 10

3.2 cbind列合并（等长）

总结：cbind等行数、按列合并（无序）

#生成测试数据	
> ID1 <- c(1:4)	
> ID2 <- c(2:5)	
> name<-c("A","B","C","D")	
> score<-c(8,22,7,6)	
> student1<-data.frame(ID1,name)	
> student2<-data.frame(ID2,score)	

	
#按照行合并student1和student2	
> cbind(student1,student2)	
   ID1 name ID2 score1   	
1    A   2     82   	
2    B   3    223   	
3    C   4     74   	
4    D   5     6

3.3 rbind行合并

总结：按行合并，需要注意数据集需要有相同的列字段名

> #生成测试数据student1	
> ID <- c(1:4)	
> score <- c(8,22,7,33)	
> student1<-data.frame(ID,score)> 	

	
#生成测试数据student2	
> ID <- c("A","B","C","D")	
> score <- c(11,2,55,3)	
> student2<-data.frame(ID,score)	

	
#按行合并，需要注意数据集需要有相同的列字段名	
> rbind(student1,student2)	
ID score1  	
1     82  	
2    223  	
3     74  	
4    335  	
A    116  	
B     27  	
C    558  	
D     3

3.4 merge

#merge语法结构	
merge(x, y, by = intersect(names(x), names(y)),	
      by.x = by, by.y = by, all = FALSE, all.x = all, all.y = all,	
      sort = TRUE, suffixes = c(".x",".y"), no.dups = TRUE,	
      incomparables = NULL, ...)	
#其中，通过by字段控制连接字段by = "ID"为单字段连接，by = c("ID","NAME",……)为多字段连接；	
#通过all=FALSE/TRUE、all.x = TRUE和all.y = TRUE实现内连接、外连接、左连接和右连接

#———merge用法———#	
> #生成测试数据	
> ID1 <- c(1:4)	
> ID2 <- c(2:5)	
> name<-c("A","B","C","D")	
> score<-c(8,22,7,6)	
> student1<-data.frame(ID1,name)	
> student2<-data.frame(ID2,score)	
> 	
> #内连接：保留交叉位置数据	
> merge(student1,student2,by.x = "ID1", by.y = "ID2",all=TRUE)	
  ID1 name score	
1   1    A    NA	
2   2    B     8	
3   3    C    22	
4   4    D     7	
5   5 <NA>     6	
> #左连接：保留左边所有数据及交叉y数据	
> merge(student1,student2,by.x = "ID1", by.y = "ID2",all.x=TRUE)	
  ID1 name score	
1   1    A    NA	
2   2    B     8	
3   3    C    22	
4   4    D     7	
> #右连接：保留右边所有数据及交叉x数据	
> merge(student1,student2,by.x = "ID1", by.y = "ID2",all.y=TRUE)	
  ID1 name score	
1   2    B     8	
2   3    C    22	
3   4    D     7	
4   5 <NA>     6

3.5 补充：集合操作

集合操作，是对2个向量的操作，处理2个向量之间的数值的关系，找到包含关系、取交集、并集、差集等。、

4.过滤/筛选

过滤，是对数据集按照某种规则进行筛选，去掉不符合条件的数据，保留符合条件的数据。对于NA值的操作，主要都集中在了过滤操作和填充操作中，因此就不在单独介绍NA值的处理了。

可参考↓↓

7.数据筛选和8.抽样

5 dplyr中5.1筛选filter和5.3选择select

4.1 缺失值处理

# 生成数据框	
> df<-data.frame(a=c(1,NA,NA,2,NA),	
+     b=c('B','A','B','B',NA),	
+     c=c(rnorm(2),NA,NA,NA));df	
   a    b          c	
1  1    B -0.3041839	
2 NA    A  0.3700188	
3 NA    B         NA	
4  2    B         NA	
5 NA <NA>         NA	

	
# 过滤有NA行的数据	
> na.omit(df)	
  a b          c	
1 1 B -0.3041839	

	
# 过滤，保留b列值为B的数据	
> df[which(df$b=='B'),]	
   a b          c	
1  1 B -0.3041839	
3 NA B         NA	
4  2 B         NA

4.2 数据增减

常见如以下不同方法

#方法一：减行数或列数	
x=x[,-1] #代表删除x数据集中第一列数据	

	
#方法二：dplyr::mutate#数值重定义和赋值	
#将Ozone列取负数赋值给new，然后Temp列重新计算为(Temp - 32) / 1.8	
mutate(airquality, new = -Ozone, Temp = (Temp - 32) / 1.8)	

	
#方法三：subset筛选变量服从某值的子集	
subset(airquality, Temp > 80, select = c(Ozone, Temp))

4.3 数值分段

数值分段，就是把一个连续型的数值型数据，按区间分割为因子类型的离散型数据。

5 分组操作

此处仅讲述aggregate数据分组计算内容，更多分组计算内容

参考→《》

dplyr包中的group_by联合summarize
group_by和summarise单变量分组计算
group_by和summarise多变量分组计算
ddply分组计算示例

5.1 aggregate语法

aggregate(x, by, FUN)	
#x为数据集	
#by为分组变量列表	
#FUN为计算函数

5.2 aggregate分组计算

> row_names <- rep(c("A","B","C"),3)	
> col_names <- LETTERS[1:3]	
> df_matrix <- matrix(c(1:27),nrow = 9,dimnames = list(row_names,col_names))	
> df_matrix	
  A  B  C	
A 1 10 19	
B 2 11 20	
C 3 12 21	
A 4 13 22	
B 5 14 23	
C 6 15 24	
A 7 16 25	
B 8 17 26	
C 9 18 27	

	
#注意分组变量为列表形式	
> aggregate(df_matrix,list(Group = row_names), mean)	
  Group A  B  C	
1     A 4 13 22	
2     B 5 14 23	
3     C 6 15 24

5.3 aggregate分组计算补充（formula形式）

可以重点了解一下

aggregate(formula, data, FUN)	
#Formulas, one ~ one, one ~ many, many ~ one, and many ~ many:	

	
#一组对一计算变量函数型分组计算：计算变量~分组变量	
> aggregate(weight ~ feed, data = chickwts, mean)	
       feed   weight	
1    casein 323.5833	
2 horsebean 160.2000	
3   linseed 218.7500	
4  meatmeal 276.9091	
5   soybean 246.4286	
6 sunflower 328.9167	

	
#多组对一函数型分组计算：计算变量~分组变量1+分组变量2……	
> aggregate(breaks ~ wool + tension, data = warpbreaks, mean)	
  wool tension   breaks	
1    A       L 44.55556	
2    B       L 28.22222	
3    A       M 24.00000	
4    B       M 28.77778	
5    A       H 24.55556	
6    B       H 18.77778	

	
#一组对多计算变量，函数型分组计算：cbind（计算变量1，计算变量2）~分组变量1	
> aggregate(cbind(Ozone, Temp) ~ Month, data = airquality, mean)	
  Month    Ozone     Temp	
1     5 23.61538 66.73077	
2     6 29.44444 78.22222	
3     7 59.11538 83.88462	
4     8 59.96154 83.96154	
5     9 31.44828 76.89655	

	
#多组对多计算变量，函数型分组计算：cbind（计算变量1，计算变量2）~分组变量1+分组变量2……	
> aggregate(cbind(ncases, ncontrols) ~ alcgp + tobgp, data = esoph, sum)	
       alcgp    tobgp ncases ncontrols	
1  0-39g/day 0-9g/day      9       261	
2      40-79 0-9g/day     34       179	
3     80-119 0-9g/day     19        61	
4       120+ 0-9g/day     16        24	
5  0-39g/day    10-19     10        84	
6      40-79    10-19     17        85	
7     80-119    10-19     19        49	
8       120+    10-19     12        18	
9  0-39g/day    20-29      5        42	
10     40-79    20-29     15        62	
11    80-119    20-29      6        16	
12      120+    20-29      7        12	
13 0-39g/day      30+      5        28	
14     40-79      30+      9        29	
15    80-119      30+      7        12	
16      120+      30+     10        13

6. 排序

#order默认升序，变量前加“-”代表降序

#排序的操作，大多都是基于索引来完成的

#用order()函数来生成索引，再匹配的数据的数值上面。

可参考↓↓

> row_names <- rep(c("A","B","C"),3)	
> col_names <- LETTERS[1:3]	
> set.seed(1234)	
> df_matrix <- matrix(round(rnorm(27,0,1),3),nrow = 9,dimnames = list(NULL,col_names));df_matrix	
           A      B      C	
 [1,] -1.207 -0.890 -0.837	
 [2,]  0.277 -0.477  2.416	
 [3,]  1.084 -0.998  0.134	
 [4,] -2.346 -0.776 -0.491	
 [5,]  0.429  0.064 -0.441	
 [6,]  0.506  0.959  0.460	
 [7,] -0.575 -0.110 -0.694	
 [8,] -0.547 -0.511 -1.448	
 [9,] -0.564 -0.911  0.575	
> df_frame <-   data.frame(group=row_names,df_matrix);df_frame	
  group      A      B      C	
1     A -1.207 -0.890 -0.837	
2     B  0.277 -0.477  2.416	
3     C  1.084 -0.998  0.134	
4     A -2.346 -0.776 -0.491	
5     B  0.429  0.064 -0.441	
6     C  0.506  0.959  0.460	
7     A -0.575 -0.110 -0.694	
8     B -0.547 -0.511 -1.448	
9     C -0.564 -0.911  0.575	
> 	
> #order，其中默认升序，变量前加“-”代表降序	
> #排序的操作，大多都是基于索引来完成的	
> #用order()函数来生成索引，再匹配的数据的数值上面。	
> df_frame[order(df_frame$A),]	
  group      A      B      C	
4     A -2.346 -0.776 -0.491	
1     A -1.207 -0.890 -0.837	
7     A -0.575 -0.110 -0.694	
9     C -0.564 -0.911  0.575	
8     B -0.547 -0.511 -1.448	
2     B  0.277 -0.477  2.416	
5     B  0.429  0.064 -0.441	
6     C  0.506  0.959  0.460	
3     C  1.084 -0.998  0.134	
> df_frame[order(df_frame$group,-df_frame$A),]	
  group      A      B      C	
7     A -0.575 -0.110 -0.694	
1     A -1.207 -0.890 -0.837	
4     A -2.346 -0.776 -0.491	
5     B  0.429  0.064 -0.441	
2     B  0.277 -0.477  2.416	
8     B -0.547 -0.511 -1.448	
3     C  1.084 -0.998  0.134	
6     C  0.506  0.959  0.460	
9     C -0.564 -0.911  0.575

7. 计数

计数，是统计同一个值出现的次数。

8 数据分裂

分裂计算，是把一个向量按照一列规则，拆分成多个向量的操作。有时候分裂split也被用于分组计算中。

> row_names <- rep(c("A","B","C"),3)	
> col_names <- LETTERS[1:3]	
> df_matrix <- matrix(c(1:27),nrow = 9,dimnames = list(NULL,col_names))	
> row_names <- rep(c("A","B","C"),3)	
> col_names <- LETTERS[1:3]	
> df_matrix <- matrix(c(1:27),nrow = 9,dimnames = list(NULL,col_names));df_matrix	
      A  B  C	
 [1,] 1 10 19	
 [2,] 2 11 20	
 [3,] 3 12 21	
 [4,] 4 13 22	
 [5,] 5 14 23	
 [6,] 6 15 24	
 [7,] 7 16 25	
 [8,] 8 17 26	
 [9,] 9 18 27	
> df_frame <-   data.frame(group=row_names,df_matrix);df_frame	
  group A  B  C	
1     A 1 10 19	
2     B 2 11 20	
3     C 3 12 21	
4     A 4 13 22	
5     B 5 14 23	
6     C 6 15 24	
7     A 7 16 25	
8     B 8 17 26	
9     C 9 18 27	
> df_split <- split(df_frame,row_names);df_split	
$A	
  group A  B  C	
1     A 1 10 19	
4     A 4 13 22	
7     A 7 16 25	

	
$B	
  group A  B  C	
2     B 2 11 20	
5     B 5 14 23	
8     B 8 17 26	

	
$C	
  group A  B  C	
3     C 3 12 21	
6     C 6 15 24	
9     C 9 18 27

另外，可以用因子类型来控制分裂。分成2步操作，第一步先分成与数据集同样长度的因子，第二步进行分裂，可以把一个大的向量拆分成多个小的向量。

> # 生成因子规则	
> n <- 3; size <- 5	
> fat <- factor(round(n * runif(n * size)));fat	
 [1] 3 3 1 1 0 1 2 1 3 3 1 1 2 2 2	
Levels: 0 1 2 3	
> # 生成数据向量	
> x <- rnorm(n * size);x	
 [1] -1.2107366 -1.3102467 -0.4083354 -0.5629753  1.2139442  1.6288760 -0.3160227 -1.8076242 -0.6125961	
[10] -2.1066644  1.2053009  1.3294407 -0.6836288 -1.7868047  0.1364916	
> # 对向量以因子的规则进行拆分	
> split(x, fat)	
$`0`	
[1] 1.213944	

	
$`1`	
[1] -0.4083354 -0.5629753  1.6288760 -1.8076242  1.2053009  1.3294407	

	
$`2`	
[1] -0.3160227 -0.6836288 -1.7868047  0.1364916	

	
$`3`	
[1] -1.2107366 -1.3102467 -0.6125961 -2.1066644

9. 去重与找重

去重，是把向量中重复的元素过滤掉。找重，是把向量中重复的元素找出来。

可参考↓↓

转置是一个数学名词，把行和列进行互换，一般用于对矩阵的操作。

# 创建一个3行5列的矩阵	
> m<-matrix(1:15,ncol=5);m	
     [,1] [,2] [,3] [,4] [,5]	
[1,]    1    4    7   10   13	
[2,]    2    5    8   11   14	
[3,]    3    6    9   12   15	

	
# 转置后，变成5行3列的矩阵	
> t(m)	
     [,1] [,2] [,3]	
[1,]    1    2    3	
[2,]    4    5    6	
[3,]    7    8    9	
[4,]   10   11   12	
[5,]   13   14   15