这是2012 年的3月份的一篇nature protocol ,下面是我作为一个RNA-seq 方面的菜鸟在根据这个protocol 跑流程时遇到的问题及解决的方法,现总结如下:
一、果蝇全基因组下载Fruit fly iGenome packages (Ensembl build; download via the TopHat and Cufflinks websites, along with packages for many other organisms; )
注意:Drosophila_melanogaster\Ensembl\BDGP5.25下面有三个文件夹 分别是 Annotation、GenomeStudio、Sequence 其中Annotation/Genes/genes.gtf中是注释文件 ,在
Sequence/BowtieIndex/genome.*是用Bowtie 建好的索引文件,以ebwt 结尾的文件,如果没有,就要自己用bowtie -build 命令来建立索引文件。
二、Downloading sequencing data:Raw sequencing reads, aligned reads, assembled transfrags and differential analysis are all available through the Gene Expression Omnibus at accession GSE32038.
GEO 数据库的有关介绍:Gene Expression Omnibus(GEO)数据库
三、软件的下载安装,这里的软件大都可以直接下载解压后,把其中的文件copy 到bin 目录就好了,当然你也可以选择自己重新编译,但是会遇到各种问题(我没尝试过),Tophat 下载地址,cufflinks下载地址,例如cufflinks 下载解压后 把下面这四个文件copy 到bin目录下 。
四、Map the reads for each sample to the reference genome
说明: 1、这几条命令中每条包含三个文件,gtf 文件,索引文件,和sequence(.fq) 文件
2、这里的genome 就是上面说的Bowtie建立的索引文件
3、tophat参数详解
4、最后三条命令出错啦,用绿色把1改成2的部分
5、每个文件的路径,如果不确定的话就用绝对路径,这里的这种写法是这三个文件在同一个目录下
五、
六、
七、
这一步容易输出警告。
八、
这一步也容易出现问题,在SEQanswers上有详细解答,详见TopHat protocol error at cuffdiff。