用rmarkdown定制你的数据分析报告

生物信息学习的正确姿势

NGS系列文章包括NGS基础在线绘图、转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这)、ChIP-seq分析 (ChIP-seq基本分析流程)、单细胞测序分析 (重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程)、DNA甲基化分析、重测序分析、GEO数据挖掘(典型医学设计实验GEO数据分析 (step-by-step))、批次效应处理等内容。

1、rmarkdown简介

markdown是一种轻量级标记语言,它允许使用者可以通过简单的文本格式 编写文档,并且转换成html文档。markdown因为语法简单、上手容易,现在也越来越多的被文档编辑人员使用。有很多可以支持markdown编辑的应用软件,例如Mou、MarkdownEditor、Haroopad、Typora等,通过这些工具可以便捷的完成markdown文字录入,并且支持导出PDF、HTML等格式。 

rmarkdown是R语言环境中提供的markdown编辑工具,运用rmarkdown撰写文章,既可以像一般的markdown编辑器一样编辑文本,也可以在rmarkdown中插入代码块,并将代码运行结果输出在markdown里。对于专注于用R语言写报告的数据分析师来说,rmarkdown既提高了数据分析工作的便捷性,也提高了数据分析报告的复用性。 

2、rmarkdown的输出展示

2.1新建一个markdown项目

点击Rstudio左上角的新建项目,选择Rmarkdown文件格式,即可建立一个rmarkdown编辑文件 。在弹出的选项框里,可以申明rmarkdown的Title、Author以及默认的输出文件格式,一般可以选择HTML、PDF、Word格式,具体见下图。 

markdown的结构

在新建的markdown文件里,主要包含三块内容:1.YAML、2.markdown文本、3.代码块。 

1)YAML

YAML是Rmarkdown的头部文件(上图1位置),YAML定义了rmarkdwon的性质,比如title、author、date、指定output文件类型等。 

2)markdown文本

markdown文本是rmarkdown里的主要内容(上图3位置),由编辑人员按照markdown语法自行编写文本内容, 

3)代码块

rmarkdown的一个主要功能是可以执行文件内的代码块(上图2位置),并将代码执行结果展示在markdown里。这对撰写数据分析报告带来了极大的便利。 

R代码块一般通过```{R}```来插入,另外{}内还可以定义参数来控制代码块运行结果的输出格式。一般包括代码及运行结果的输出、图片表格格式定义等。代码块参数主要包括如下几类: 

  • eval
    eval控制了代码块是否执行。若设定为eval=TRUE,则markdown会执行代码块里的代码;若eval=FALSE,则markdown不会执行代码。 

  • echo
    echo参数控制了markdown是否显示代码块。若echo=TRUE,则表示代码块显示在markdown文档显示代码块;反之,代码块不出现在输出结果中。 

  • collapse
    collapse设置为TRUE或者FALSE.用来控制文本输出结果是否和代码块混在一起。 

  • fig.show :设置了图片输出方式 

    • fig.show=‘asis’:表示plot在产生他们的代码后面

    • fig.show=‘hold’:所有代码产生的图片都放在一个完整的代码块之后

    • fig.show=‘animate’:表示将所有生成的图片合成一个动画图片

    • fig.show=‘hide’:表示产生所有图片,但是并不展示

  • fig.width:设置图片输出的宽度 

  • fig.height:设置图片输出的高度 

  • fig.align
    设置图片位置排版格式,默认为left,可以为right或者center 

  • fig.cap :设置图片的标题

  • fig.subcap:设置图片的副标题 

若markdown内的代码块存在一样的参数设置,则可以提前设计好全局的代码块参数。全局代码块通过knitr::opts_chunk$set函数进行设置,一般设置在YAML文件下方,具体见下图。 

2.2markdown的图表输出

rmarkdown生成的表格,可以通过knitr包的kable()函数进行输出。以datasets包的rock数据集为例,在rmarkdown中输出rock数据集的表格(见下图)。 

knitr::kable(head(rock), caption = 'rock数据',align='c')

除了用knitr::kable()输出表格,还可以kableExtra、huxtable等扩展包来美化表格。本文以kableExtra包为例,大致介绍rmarkdown中渲染表格的相关函数。 

设置表格的宽度

x_html <- knitr:: kable(head(rock), "html")
kableExtra::kable_styling(x_html,bootstrap_options = "striped",
                          full_width = F)

设置表格的对齐方式

x_html <- knitr:: kable(head(rock), "html")
kableExtra::kable_styling(x_html,bootstrap_options = "striped",
                          full_width = F,
                          position = "left")

设置表格的字体大小

x_html <- knitr:: kable(head(rock), "html")
kableExtra::kable_styling(x_html,bootstrap_options = "striped",
                          full_width = T,
                          font_size = 20

设置表格的行与列

x_html <- knitr:: kable(head(rock), "html")
x_html <- kableExtra::kable_styling(x_html,
                                    bootstrap_options = "striped",
                                    full_width = T)
kableExtra::column_spec(x_html,1:2,
                        bold = T,
                        color = "white",
                        background = "#D7261E")

x_html <- knitr:: kable(head(rock), "html")
x_html <- kableExtra::kable_styling(x_html,
                                    bootstrap_options = "striped",
                                    full_width = T)
kableExtra::row_spec(x_html,1:2,
                        bold = T,
                        color = "white",
                        background = "#D7261E")

其它表格渲染

library(kableExtra)
data =  plyr::mutate(rock[1:10, ],
                   perm = cell_spec(perm,"html",
                   color = "white",
                   bold = T,
                   background = spec_color(1:10,
                   end = 0.9,
                   option = "A",
                   direction = -1)),
  shape = ifelse(shape > 0.15,
                 cell_spec(shape,
                           "html",
                           color = "white",
                           background = "#D7261E",
                           bold = T),
                 cell_spec(shape, "html",
                          color = "green",
                           bold = T)))
x_html <-knitr::kable(data,"html", escape = F, align = "c")
x_html <-row_spec(x_html,0, color = "white", background = "#696969" )
kable_styling(x_html,"striped")

2.3markdown的主题格式

Rmarkdowm作为可复用报告的优秀工具,除了提供文档编辑、图表输出外,还有许多主题格式供使用者选择。除了默认的主题外,还可以通过加载prettydoc、rmdformats、tufte等包获取更多主题格式。下面我们看看几类扩展包里的主题样式。 

rmdformats包

---
title: "建立你的markdown项目"
author: "R友舍"
date: "2020/9/1"
output:
  rmdformats::readthedown:
    self_contained: true
    thumbnails: true
    lightbox: true
    gallery: false
    highlight: tango
---

prettydoc包

---
title: "建立你的markdown项目"
author: "R友舍"
date: "2020/9/1"
output:
  prettydoc::html_pretty:
    theme: cayman
    highlight: github
---

tufte包

---
title: "建立你的markdown项目"
author: "R友舍"
date: "2020/9/1"
output:
  tufte::tufte_html: default
---

cerulean

---
title: "建立你的markdown项目"
author: "R友舍"
date: "2020/9/1"
output:
  html_document:
    theme: cerulean
    highlight: tango
---

2.4markdown的导出

rmarkdown的导出方法有两种,一种是依靠Rstudio手动导出,另一种是基于命令行的导出方式。 

手动导出

手动导出方法很简单,在完成mardown编辑后,手动点击上图红圈内knit按钮,选择导出格式类型即可,Rstudio支持导出PDF、html、word三种类型。 

命令行导出

命令行导出主要依靠rmarkdown::render实现,render函数主要包含如下几个参数: 

  • input
    指定需要导出的rmarkdwon文件地址

  • output_format
    指定需要导出的文件类型,同样支持pdf、word、html等多种文件格式。若未指定output_format格式,则输出rmarkdown文件中output指定的格式类型。

3、生成可重复性报告

使用rmarkdown最大的便捷是可以作为可重复性报告模版,提高数据分析报告制作效率。使用人员可以提前制作好数据分析模版,对于同类数据分析问题,只需要自动切换数据来源,即可自动生成分析报告,极大的提高了数据分析人员的分析效率。 

这里我们以datasets包为例,制作一个数据集的数据概览报告,并将该报告作为模版,对datasets包内指定数据集批量输出分析报告。 

在制作可重复性报告前,首先需要建立分析模版,然后再通过自动加载数据的方式,自动化产出分析报告。首先我们先建立一份模版文件 

在建立好一份分析模版后,还有两个问题需要解决:1:如何动态的将数据集传入到rmarkdown中,从而实现复用报告模版的效果;2:如何批量生成报告并导出。 

要解决第一个问题,需要引用YAML里的params参数,render函数可以通过修改params参数,将数据传入rmarkdown中,从而实现动态调整rmarkdown里的数据。 

如上图所示,先在YAML中设置好自定义参数名称name,然后再通过render函数将name值传入到markdown中,并通过params$name实现对数据集名称的调用。 

name <-"airquality"
render("用rmarkdown定制你的数据分析报告/可重复分析报告/模版.Rmd",
       params = list(name=name),
       output_file = paste0(name,'数据集概览'),
       )

关于第二个问题,当设置好分析模版及依赖的参数后,只需要在rander函数外面循环传入参数即可,并将不通报告导出到指定文件夹内即可。 

当我们要同时生成datasets数据集内airquality,mtcars,LifeCycleSavings三个数据集的分析报告时: 

library(datasets)
name_list <-c("airquality","mtcars","LifeCycleSavings")
for(name in name_list){
  render("用rmarkdown定制你的数据分析报告/可重复分析报告/模版.Rmd",
         params = list(name=name),
         output_file = paste0(name,'数据集概览'),
  )
}

最终在目标路径下,即可看到已生成的三分报告,这样就实现了rmarkdown的重复性报告了。 


往期精品(点击图片直达文字对应教程)

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

  • 7
    点赞
  • 56
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值