FigDraw 3. SCI 文章绘图必备 R 数据转换


图片

关注公众号,桓峰基因

桓峰基因

生物信息分析,SCI文章撰写及生物信息基础知识学习:R语言学习,perl基础编程,linux系统命令,Python遇见更好的你

70篇原创内容

公众号

研究肿瘤克隆进化的同学可以关注桓峰基因小店,本月15号下午3:30在线直播!!

好多同学在处理数据的时候改不清每个软件包对输入数据的要求,有时要求是matrix,有时是list,有时是vector, 有时是个object,并且一般基础绘图要求是宽数据,而ggplot2要求是长数据,所以数据转换往往是新手同学的拦路虎,那么这期咱们就灭了这只拦路虎,让自己走得更远,攀得更高!

前言

R中有许多用于数据框基本操作的内置函数,一般是基于 base 包的。而这个包是安装R是会自带的包,也就是说不用自己单独安装一次,并且无须加载就可以直接使用,除此之外,还有几种常用的数据处理的R包,包括:

  1. {dplyr}

  2. {tidyr}

  3. {reshape2}

  4. {tidyverse}

一般我们实验记录的数据格式(大多习惯用宽表格记录数据)和我们后期用R绘图所用到的数据格式往往不一样,例如ggplot2、plyr,还有大多数建模函数lm()、glm()、gam()等经常会使用长表格数据来作图,这时用reshape2包来转换实验记录的宽表格数据会十分方便。我们基于上述的五个R软件包,包括base一起说说他们怎么用,因为在高级绘图中往往出现的频率最高,也是处理数据对快的方式。

实例讲解

首先安装这是个常用软件包并加载,如下:

if (!require(dplyr)) {
    install.packages("dplyr")
}
if (!require(tidyr)) {
    install.packages("tidyr")
}
if (!require(reshape2)) {
    install.packages("reshape2")
}
if (!require(tidyverse)) {
    install.packages("tidyverse")
}
library(dplyr)
library(tidyr)
library(reshape2)
library(tidyverse)

1. {base}

R 软件包包括一些常用的数据处理的函数,比如rbind, cbind, transform 等函数,学会怎样处理简单的数据合并,转换,下面我们就举几个例子:

# 宽数据 library(help = 'base') 构建一个数据框
data1 <- data.frame(Level = LETTERS[1:4], x = 1:4, y = seq(7, 10), check.names = FALSE)
data1
##   Level x  y
## 1     A 1  7
## 2     B 2  8
## 3     C 3  9
## 4     D 4 10
data2 <- data.frame(Level = LETTERS[1:4], x = 5:8, y = seq(1, 4), check.names = FALSE)
data2
##   Level x y
## 1     A 5 1
## 2     B 6 2
## 3     C 7 3
## 4     D 8 4
# 合并数据 列合并
data <- cbind(data1, data2)
data
##   Level x  y Level x y
## 1     A 1  7     A 5 1
## 2     B 2  8     B 6 2
## 3     C 3  9     C 7 3
## 4     D 4 10     D 8 4
# 行合并
data <- rbind(data1, data2)
data
##   Level x  y
## 1     A 1  7
## 2     B 2  8
## 3     C 3  9
## 4     D 4 10
## 5     A 5  1
## 6     B 6  2
## 7     C 7  3
## 8     D 8  4
# 为原数据框添加新的列,改变原变量列的值,还可通过赋值NULL删除列变量
transform(data, x = -x, y = y + 2)
##   Level  x  y
## 1     A -1  9
## 2     B -2 10
## 3     C -3 11
## 4     D -4 12
## 5     A -5  3
## 6     B -6  4
## 7     C -7  5
## 8     D -8  6

2. {dplyr}

dplyr是R语言的数据分析包,能对data frame类型的数据做很方便的数据处理和分析操作。dplyr如同R的大多数包,都是函数式编程。优点是初学者比较容易接受这种函数式思维,有点类似于流水线,每个函数就是一个车间,多个车间共同完成一个生产(数据分析)任务。而在dplyr中,就有一个管道符 %>% 经常出现在绘图过程中对数据的处理,该符号左侧表示数据的输入,右侧表示下游数据处理环节。

图片

我们这里举几个常用的函数,如下:

dplyr is a grammar of data manipulation, providing a consistent set of verbs that help you solve the most common data manipulation challenges: mutate() adds new variables that are functions of existing variables select() picks variables based on their names. filter() picks cases based on their values. summarise() reduces multiple values down to a single summary. arrange() changes the ordering of the rows.

# 对x列进行排序
arrange(data, -x)
##   Level x  y
## 1     D 8  4
## 2     C 7  3
## 3     B 6  2
## 4     A 5  1
## 5     D 4 10
## 6     C 3  9
## 7     B 2  8
## 8     A 1  7

# 选择数据的Level和x
select(data, Level, x)
##   Level x
## 1     A 1
## 2     B 2
## 3     C 3
## 4     D 4
## 5     A 5
## 6     B 6
## 7     C 7
## 8     D 8
# 另一种方式选择
select(data, -y)
##   Level x
## 1     A 1
## 2     B 2
## 3     C 3
## 4     D 4
## 5     A 5
## 6     B 6
## 7     C 7
## 8     D 8

# 按照筛选条件选择数据
filter(data, x >= 3)
##   Level x  y
## 1     C 3  9
## 2     D 4 10
## 3     A 5  1
## 4     B 6  2
## 5     C 7  3
## 6     D 8  4
# 筛选下>=3,y>=5
filter(data, (x >= 3 & y >= 5))
##   Level x  y
## 1     C 3  9
## 2     D 4 10

# 将现有的字段经过计算后生成新字段
mutate(data, xy = x * y, log = log(xy))
##   Level x  y xy      log
## 1     A 1  7  7 1.945910
## 2     B 2  8 16 2.772589
## 3     C 3  9 27 3.295837
## 4     D 4 10 40 3.688879
## 5     A 5  1  5 1.609438
## 6     B 6  2 12 2.484907
## 7     C 7  3 21 3.044522
## 8     D 8  4 32 3.465736
# 得到记录的位置(行数)
mutate(data, n = row_number())
##   Level x  y n
## 1     A 1  7 1
## 2     B 2  8 2
## 3     C 3  9 3
## 4     D 4 10 4
## 5     A 5  1 5
## 6     B 6  2 6
## 7     C 7  3 7
## 8     D 8  4 8

# 计算x平均值
summarise(data, mean_x = mean(x))
##   mean_x
## 1    4.5
# Useful functions Center: mean(), median() Spread: sd(), IQR(), mad() Range:
# min(), max(), quantile() Position: first(), last(), nth(), Count: n(),
# n_distinct() Logical: any(), all()

# 对资料进行分组
group_by(data, Level)
## # A tibble: 8 x 3
## # Groups:   Level [4]
##   Level     x     y
##   <chr> <int> <int>
## 1 A         1     7
## 2 B         2     8
## 3 C         3     9
## 4 D         4    10
## 5 A         5     1
## 6 B         6     2
## 7 C         7     3
## 8 D         8     4

我们也可以用管道符 %>% ,两种写法得到的运行结果是一致的,可能用久了会觉得管道符 %>% 可读性更强,后面我们都会用 %>% 来写代码。

# 对x列进行排序
data %>%
    arrange(-x)
##   Level x  y
## 1     D 8  4
## 2     C 7  3
## 3     B 6  2
## 4     A 5  1
## 5     D 4 10
## 6     C 3  9
## 7     B 2  8
## 8     A 1  7

# 选择数据的Level和x
data %>%
    select(Level, x)
##   Level x
## 1     A 1
## 2     B 2
## 3     C 3
## 4     D 4
## 5     A 5
## 6     B 6
## 7     C 7
## 8     D 8
# 另一种方式选择
data %>%
    select(-y)
##   Level x
## 1     A 1
## 2     B 2
## 3     C 3
## 4     D 4
## 5     A 5
## 6     B 6
## 7     C 7
## 8     D 8

# 按照筛选条件选择数据
data %>%
    filter(x >= 3)
##   Level x  y
## 1     C 3  9
## 2     D 4 10
## 3     A 5  1
## 4     B 6  2
## 5     C 7  3
## 6     D 8  4
# 筛选下>=3,y>=5
data %>%
    filter((x >= 3 & y >= 5))
##   Level x  y
## 1     C 3  9
## 2     D 4 10

# 将现有的字段经过计算后生成新字段
data %>%
    mutate(xy = x * y, log = log(xy))
##   Level x  y xy      log
## 1     A 1  7  7 1.945910
## 2     B 2  8 16 2.772589
## 3     C 3  9 27 3.295837
## 4     D 4 10 40 3.688879
## 5     A 5  1  5 1.609438
## 6     B 6  2 12 2.484907
## 7     C 7  3 21 3.044522
## 8     D 8  4 32 3.465736
# 得到记录的位置(行数)
data %>%
    mutate(n = row_number())
##   Level x  y n
## 1     A 1  7 1
## 2     B 2  8 2
## 3     C 3  9 3
## 4     D 4 10 4
## 5     A 5  1 5
## 6     B 6  2 6
## 7     C 7  3 7
## 8     D 8  4 8

# 计算x平均值
data %>%
    summarise(mean_x = mean(x))
##   mean_x
## 1    4.5


# 对资料进行分组
data %>%
    group_by(Level)
## # A tibble: 8 x 3
## # Groups:   Level [4]
##   Level     x     y
##   <chr> <int> <int>
## 1 A         1     7
## 2 B         2     8
## 3 C         3     9
## 4 D         4    10
## 5 A         5     1
## 6 B         6     2
## 7 C         7     3
## 8 D         8     4
# 为了让大家看到分组的功效,咱们按照Level分别计算x的平均数
data %>%
    group_by(Level) %>%
    summarise(mean_x = mean(x))
## # A tibble: 4 x 2
##   Level mean_x
##   <chr>  <dbl>
## 1 A          3
## 2 B          4
## 3 C          5
## 4 D          6

其他函数可以参考cheat,如下:

https://dplyr.tidyverse.org/

3. {tidyr}

tidyr用于数据处理,可以实现数据长格式和宽格式之间的相互转换,这里所指的长格式数据就是一个观测对象由多行组成,而宽数据格式则是一个观测仅由一行组成。除此之外,tidyr还可以对数据进行拆分和合并,同时也能够对缺失值进行简单的处理。tidyr的转换函数gather(宽到长)和spread(长到宽)所需参数少,逻辑上更易理解,自始至终都围绕着data,key、value三个参数来进行设定,对比其它R语言长宽格式互换的实现方式,个人认为tidyr操作性还是比较突出的。

当我们用R处理数据时,应该遵循Tidy data的原则:

每一列都是变量;

每一行都是一个观察结果;

每个单元格都是一个单独的值。

我们这里主要介绍tidyr包的四个常用函数:

  1. gather:宽数据转为长数据:

  2. spread:长数据转为宽数据;

  3. unit:多列合并为一列;

  4. separate:将一列分离为多列。

rownames(data) = paste("Sample", 1:8, sep = "")
data$Sample = paste("Sample", 1:8, sep = "")
data
##         Level x  y  Sample
## Sample1     A 1  7 Sample1
## Sample2     B 2  8 Sample2
## Sample3     C 3  9 Sample3
## Sample4     D 4 10 Sample4
## Sample5     A 5  1 Sample5
## Sample6     B 6  2 Sample6
## Sample7     C 7  3 Sample7
## Sample8     D 8  4 Sample8
# 宽数据转为长数据
data_long <- gather(data, Variable, Value, -Sample)
data_long
##     Sample Variable Value
## 1  Sample1    Level     A
## 2  Sample2    Level     B
## 3  Sample3    Level     C
## 4  Sample4    Level     D
## 5  Sample5    Level     A
## 6  Sample6    Level     B
## 7  Sample7    Level     C
## 8  Sample8    Level     D
## 9  Sample1        x     1
## 10 Sample2        x     2
## 11 Sample3        x     3
## 12 Sample4        x     4
## 13 Sample5        x     5
## 14 Sample6        x     6
## 15 Sample7        x     7
## 16 Sample8        x     8
## 17 Sample1        y     7
## 18 Sample2        y     8
## 19 Sample3        y     9
## 20 Sample4        y    10
## 21 Sample5        y     1
## 22 Sample6        y     2
## 23 Sample7        y     3
## 24 Sample8        y     4
# 管道符处理
data %>%
    gather(Variable, Value, -Sample)
##     Sample Variable Value
## 1  Sample1    Level     A
## 2  Sample2    Level     B
## 3  Sample3    Level     C
## 4  Sample4    Level     D
## 5  Sample5    Level     A
## 6  Sample6    Level     B
## 7  Sample7    Level     C
## 8  Sample8    Level     D
## 9  Sample1        x     1
## 10 Sample2        x     2
## 11 Sample3        x     3
## 12 Sample4        x     4
## 13 Sample5        x     5
## 14 Sample6        x     6
## 15 Sample7        x     7
## 16 Sample8        x     8
## 17 Sample1        y     7
## 18 Sample2        y     8
## 19 Sample3        y     9
## 20 Sample4        y    10
## 21 Sample5        y     1
## 22 Sample6        y     2
## 23 Sample7        y     3
## 24 Sample8        y     4

# 长数据转为宽数据
spread(data_long, Variable, Value)
##    Sample Level x  y
## 1 Sample1     A 1  7
## 2 Sample2     B 2  8
## 3 Sample3     C 3  9
## 4 Sample4     D 4 10
## 5 Sample5     A 5  1
## 6 Sample6     B 6  2
## 7 Sample7     C 7  3
## 8 Sample8     D 8  4
# 管道符
data_long %>%
    spread(Variable, Value)
##    Sample Level x  y
## 1 Sample1     A 1  7
## 2 Sample2     B 2  8
## 3 Sample3     C 3  9
## 4 Sample4     D 4 10
## 5 Sample5     A 5  1
## 6 Sample6     B 6  2
## 7 Sample7     C 7  3
## 8 Sample8     D 8  4

# 多列合并为一列
data_unite <- unite(data, Sample2Level, Sample, Level, sep = "_")
data_unite
##         Sample2Level x  y
## Sample1    Sample1_A 1  7
## Sample2    Sample2_B 2  8
## Sample3    Sample3_C 3  9
## Sample4    Sample4_D 4 10
## Sample5    Sample5_A 5  1
## Sample6    Sample6_B 6  2
## Sample7    Sample7_C 7  3
## Sample8    Sample8_D 8  4
# 管道符处理
data %>%
    unite(Sample2Level, Sample, Level, sep = "_")
##         Sample2Level x  y
## Sample1    Sample1_A 1  7
## Sample2    Sample2_B 2  8
## Sample3    Sample3_C 3  9
## Sample4    Sample4_D 4 10
## Sample5    Sample5_A 5  1
## Sample6    Sample6_B 6  2
## Sample7    Sample7_C 7  3
## Sample8    Sample8_D 8  4

# 将一列分离为多列
separate(data_unite, Sample2Level, c("Sample", "Level"), sep = "_")
##          Sample Level x  y
## Sample1 Sample1     A 1  7
## Sample2 Sample2     B 2  8
## Sample3 Sample3     C 3  9
## Sample4 Sample4     D 4 10
## Sample5 Sample5     A 5  1
## Sample6 Sample6     B 6  2
## Sample7 Sample7     C 7  3
## Sample8 Sample8     D 8  4
# 管道符处理
data_unite %>%
    separate(Sample2Level, c("Sample", "Level"), sep = "_")
##          Sample Level x  y
## Sample1 Sample1     A 1  7
## Sample2 Sample2     B 2  8
## Sample3 Sample3     C 3  9
## Sample4 Sample4     D 4 10
## Sample5 Sample5     A 5  1
## Sample6 Sample6     B 6  2
## Sample7 Sample7     C 7  3
## Sample8 Sample8     D 8  4

其他数据操作函数参考官网,如下:

https://tidyr.tidyverse.org/

4. {reshape2}

reshape2是由Hadley Wickham编写的R包,可以轻松地在宽格式(wide-format)和长格式(long-format)之间转换数据。reshape2R包主要有两个主要的功能:melt和cast

  1. melt:将wide-format数据“熔化”成long-format数据;

  2. cast:获取long-format数据“重铸”成wide-format数据。

这两个命名十分形象,方便记忆,你可以想象成你在处理金属。当你熔化金属成液体滴下时,金属会被拉长(long-format)。如果你把金属它铸成一个模子,它就会变宽(wide-format)。

# 数据融合
data_melt <- melt(data, id.vars = c("Sample", "Level"), variable.name = "Group",
    value.name = "Score")
data_melt
##     Sample Level Group Score
## 1  Sample1     A     x     1
## 2  Sample2     B     x     2
## 3  Sample3     C     x     3
## 4  Sample4     D     x     4
## 5  Sample5     A     x     5
## 6  Sample6     B     x     6
## 7  Sample7     C     x     7
## 8  Sample8     D     x     8
## 9  Sample1     A     y     7
## 10 Sample2     B     y     8
## 11 Sample3     C     y     9
## 12 Sample4     D     y    10
## 13 Sample5     A     y     1
## 14 Sample6     B     y     2
## 15 Sample7     C     y     3
## 16 Sample8     D     y     4
# 管道符处理
data %>%
    melt(id.vars = c("Sample", "Level"), variable.name = "Group", value.name = "Score")
##     Sample Level Group Score
## 1  Sample1     A     x     1
## 2  Sample2     B     x     2
## 3  Sample3     C     x     3
## 4  Sample4     D     x     4
## 5  Sample5     A     x     5
## 6  Sample6     B     x     6
## 7  Sample7     C     x     7
## 8  Sample8     D     x     8
## 9  Sample1     A     y     7
## 10 Sample2     B     y     8
## 11 Sample3     C     y     9
## 12 Sample4     D     y    10
## 13 Sample5     A     y     1
## 14 Sample6     B     y     2
## 15 Sample7     C     y     3
## 16 Sample8     D     y     4

# 长数据转换成宽数据,将melt之后的data_melt转换成原始数据
dcast(data_melt, Sample + Level ~ Group)
##    Sample Level x  y
## 1 Sample1     A 1  7
## 2 Sample2     B 2  8
## 3 Sample3     C 3  9
## 4 Sample4     D 4 10
## 5 Sample5     A 5  1
## 6 Sample6     B 6  2
## 7 Sample7     C 7  3
## 8 Sample8     D 8  4
# 管道符处理
data_melt %>%
    dcast(Sample + Level ~ Group)
##    Sample Level x  y
## 1 Sample1     A 1  7
## 2 Sample2     B 2  8
## 3 Sample3     C 3  9
## 4 Sample4     D 4 10
## 5 Sample5     A 5  1
## 6 Sample6     B 6  2
## 7 Sample7     C 7  3
## 8 Sample8     D 8  4

其他函数可参考网站,如下:

https://seananderson.ca/2013/10/19/reshape/

5. {tidyverse}

tidyverse是为数据科学设计的R软件包,它包含(ggplot2、dplyr、tidyr、stringr、magrittr、tibble)等一系列热门软件包,学好tidyverse的使用可也让你站上另一个高度,从而高效的处理数据,因此本文档不仅仅做一些案例介绍,而是希望以较为正确的学习方法来介绍R语言,使大家少走弯路,快速入门掌握R语言。这个包好多的函数都在上面的几个包中讲过,但是大飞哥终结的很全面,我就直接采用了,方便大家查找和使用,代码如下:

https://dengfei2013.gitee.io/r-language-advanced/

其他更多函数的讲解参考官网,如下:

https://tidyverse.tidyverse.org

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值