欢迎关注微信公众号“生信小王子”!
前几期,小编已经教大家完成了RNA-seq数据的质控,下面就要正式开始转录组分析啦!
通过二代测序我们可以获得150bp左右的reads,如果想要知道reads是从哪个转录本上测出来的,就需要将reads比对到参考基因组上。比对的算法很复杂,但简单理解就是看reads与基因组上哪个区域一致。
常用的比对工具有Tophat2、Hisat2和STAR。不同的工具有各自的优势,目前比较流行的工具是Hisat2和STAR,它俩的比对速度都比较快,STAR的uniquely mapping reads比例较高,对于我们做多倍体物种分析的人来说,STAR的优势非常大,所以小编以STAR为例教大家进行reads比对。
## 下载 STAR
wget -c https://github.com/alexdobin/STAR/archive/2.7.3a.tar.gz
## 解压 STAR
tar -xvzf 2.7.3a.tar.gz
## 运行 STAR
./STAR-2.7.3a/bin/Linux_x86_64/STAR
在进行reads比对前,我们需要先构建基因组索引。
## 构建基因组索引
STAR --runThreadN 6 --runMode genomeGenerate --genomeDir index_dir --genomeFastaFiles genome.fasta --sjdbGTFfile genome.gtf --sjdbOverhang 149
--runThreadN: