引言
RNA-Seq技术的产生大大推动了转录组学的研究范围和规模,然而面对RNA-seq惊人的数据量,刚入门的新手难免感觉有些无所适从。因此如何对RNA-seq数据进行分析,挖掘其中蕴含的宝贵信息,可以说是RNA-seq分析中的重中之重。
分析RNA-seq的软件众多,但没有哪个软件是万能的。研究人员可以根据自己的研究对象和目标,制定不同的分析策略。RNA-seq数据分析主要分为三部曲:比对——转录组重建——表达定量。
首先我们简要介绍一款经典的软件Tophat,对RNA-seq数据进行第一步的比对分析。
1软件下载
下载地址(http://ccb.jhu.edu/software/tophat/index.shtml),然后进行解压:
tar -zxvf tophat-2.1.1.Linux_x86_64.tar.gz
另外使用Tophat前,还需要安装Bowtie或Bowtie2,SAMtools, Boost C++ libraries等,而且需要在系统路径中。
1参考基因组
1、直接在tophat网站下载索引和注释信息。这种做法可以省去后面对参考基因组建立索引的步骤,而且包含了基因组的注释信息方便对表达进行定量,但缺点是文件比较大下载时间较长。
2、从UCSC上下载人类参考基因组序列(http://hgdownload.soe.ucsc.edu/goldenPath/hg19/chr