高通量测序数据分析：RNA-seq

精分大神

已于 2023-12-30 18:08:38 修改

阅读量3w

点赞数 35

分类专栏：生信菜鸡来了文章标签：生物学数据分析

于 2020-06-20 15:50:56 首次发布

本文链接：https://blog.csdn.net/qq_41134363/article/details/105958520

版权

本文围绕RNA-seq学习路线进行生信入门，主要内容有：

☆ RNA-seq方法原理
☆ RNA-seq的生物信息分析
1.数据获取
测序数据下载与处理（SRA Toolkit）
测序数据质控与过滤（fastp）
2.序列比对（SAMtools、HISAT2）
3.序列组装（StringTie、TACO）
4.表达定量和差异表达分析（Salmon、DESeq2）
5.GO和KEGG富集分析（clusterProfiler）

☆ RNA-seq方法原理

在这里插入图片描述
目的是要给mRNA测序，得到样本的基因表达信息。

llumina的Truseq RNA建库方法：

带Poly（T）探针的磁珠与总RNA进行杂交，吸附其中的带Poly（A）尾巴的mRNA
Mg”离子溶液处理RNA，把RNA打成短片段被打断的mRNA片段，用随机引物逆转出第一链的cDNA，再合成双链cDNA
在双链CDNA的两端加“A"碱基，并连上"Y“型的接头
经过PCR扩增，成为可以上机的文库

起始总RNA质量控制：用电泳方法。rRNA占有总RNA的大部分，形成的峰越高/尖，RIN（RNA完整度评分值）越高，8以上质量比较好。
测到的RNA片段 mapping到基因组上，进行样品的reads在参考基因上的分布均匀性(Gene coverage)统计。两端平衡的时候表示mRNA降解少（3’高降解多）。
在这里插入图片描述

☆ RNA-seq的生物信息分析

一、深度测序数据获取

和EBI、DDBJ组成INSDC，数据内容相同所以找NCBI就行。

（一）NCBI常用数据库

GenBank：遗传序列数据库，收集了所有公开的DNA序列及其注释 GEO (Gene Expression Omnibus)
：收集整理各种表达芯片数据，后来加入了甲基化、lncRNA、miRNA、CNV等其他芯片，还有高通量测序数据。文献中常见GSM和GSE开头的编号，分别是GEO
Sample和GEO Series的数据 PubMed / PMC (PubMed
Central)：前者把测序数据和文章联系起来，后者可以进行全文检索，无法访问校园网时可以替代Web of Knowledge
RefSeq：为所有常见生物提供非冗余、人工挑选过的参考序列，通常包含：参考基因组、参考转录组、参考蛋白序列、参考SNP信息、参考CNV信息等等

（二）测序数据的下载和处理：SRA Toolkit

测序数据序列格式
（1）FASTA：表示生物序列的文本格式，基因组和EST序列常常采用

（2）FASTQ格式：表示生物序列及其质量的文本格式

（3）ncbi SRA (Sequence Read Archive) ：存储高通量测序原始数据和比对信息，把FASTQ格式文件压缩为SRA格式

绝大多数分析工具不支持SRA，需要使用配套工具包SRA Toolkit先行处理

1. SRA toolkit软件下载

在官网选择适合自己的版本下载。

#我选的ubuntu版本，其他一样，把下载链接修改一下就好了
wget http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.10.5/sratoolkit.2.10.5-ubuntu64.tar.gz

用conda install sra-tools失败，只好用wget方法或者手动下载到linux盘符下。把安装包下载后用tar xzvf 解压，再配置完PATH就安装好了。
检查配置：

prefetch -V

2.用SRAtoolkit下载并处理NCBI数据

将 .sra文件转换为 .fstaq.gz文件的工具。用NCBI的SRR数据测试一下。
（1）下载
理论上下载东西都可以用wget，但是太慢了。单个数据下载还好，批量下载

prefetch SRRxxxxxxx -O .  #-O . 指定到当前路径，否则默认路径难找

在这里插入图片描述
一个数据下了好久，大概1个多小时。不知道怎么优化。

（2）解压

fastq-dump SRRxxxxxxx.sra #解压后从sra文件变为fastq文件

在这里插入图片描述

双端测序数据要加–split-files，否则解压后两端的数据不会分开，难以被其他软件读取如果所用分析软件支持读取gzip，建议加上–gzip，将解压后的数据用gzip压缩，避免占用过多空间

fastq-dump --split-files --gzip xxx.sra

（三）测序数据质控与过滤： fastp

输出HTML和JSON报告，前者方便阅读，后者方便软件读取
单端：fastp -i raw.fq -o clean.fq
双端：fastp -i raw_1.fq -I raw_2.fq -o clean_1.fq -O clean_2.fq
有必要附加的参数：-l 36 -j xxx.json -h xxx.html

默认报告文件名 fastp.json 和 fastp.html，处理多个样本时极易互相覆盖，建议改为样本名称

fastp参数设置

 # I/O options 输入输出序列文件
  -i <单端-输入文件名>
  -o <单端-输出文件名>
  -I <双端-输入文件名>
  -O <双端-输出文件名>
  
#过滤后的最短序列长度
  -l 36  #默认15，建议设为36或40

# reporting options 报告参数
  -j   <the json format report file name >
  -h   <the html format report file name >
  -R   "report_title"