Trinity 一条龙策略-CSDN博客

本文详细介绍了如何利用Trinity进行转录组组装，包括数据预处理、转录组组装、reads比对、RSEM表达量计算和差异表达分析。此外，还涉及了使用RSEM、edgeR进行表达量计算和差异表达鉴定，并提到了转录组组装后的蛋白编码区提取。整个流程提供了一个完整的大数据RNA-seq分析实例。

摘要由CSDN通过智能技术生成

1. Trinity进行转录组组装

Trinity进行转录组组装的典型命令如下:

$ /opt/biosoft/trinityrnaseq_r20131110/Trinity.pl --seqType fq --JM 50G\
 --left sample1_1.clean.fastq sample2_1.clean.fastq\
 --right sample1_2.clean.fastq sample2_2.clean.fastq\
 --jaccard_clip --CPU 6 --SS_lib_type FR

–JM后的参数设定与转录组的大小有关，在内存足够的情况下，设定大点能节约时间；
–left 和 –right后可以接多个样平的数据，并用空格隔开，值得注意的是，left reads name以/1结尾，rigth reads name以/2结尾；
–jaccard_clip 适合于基因稠密的真菌物种；
–SS_lib_type 适合于链特异性测序

大数据量(>300M pairs)的RNA-seq数据，最好使用TRINITY_RNASEQ_ROOT/util/normalize_by_kmer_coverage.pl对reads进行处理后再使用trinity进行组装，以降低内存消耗和大量时间。
也可以设置–min_kmer_cov 2，丢弃uniquely occurring kmer, 从而降低内存消耗。

参考文献：
1. Grabherr MG, Haas BJ, Yassour M, Levin JZ, Thompson DA, Amit I, Adiconis X, Fan L, Raychowdhury R, Zeng Q, Chen Z, Mauceli E, Hacohen N, Gnirke A, Rhind N, di Palma F, Birren BW, Nusbaum C, Lindblad-Toh K, Friedman N, Regev A. Full-length transcriptome assembly from RNA-seq data without a reference genome. Nat Biotechnol. 2011 May 15;29(7):644-52. doi: 10.1038/nbt.1883. PubMed PMID: 21572440.
2. Borodina T, Adjaye J, Sultan M. A strand-specific library preparation protocol for RNA sequencing. Methods Enzymol. 2011;500:79-98. PubMed PMID: 21943893.

2. Trinity输出结果的统计

Trinity默认的输出结果为：trinity_out_dir/Trinity.fasta。
该fasta格式文件中序列名例如：

>comp6749_c0_seq1 len=328 path=[471:0-83 388:84-208 679:209-327]
>comp6749_c0_seq2 len=328 path&