总体设计
比较基于de novo和reference-genome的转录组组装来评估用于鉴定差异表达的基因(DEGs)的reference-free和-dependent两种方法。
RNAseq分析
RNA-seq raw reads用FastQC质检,Trimmomatic,PrinSeq。
cleaned reads用Trinity用于de novo转录组组装;同样的cleaned reads set 用GSNAP map到有reference genome的基因模型。
EdgeR,DESeq2,NOISeq用来normalize read counts和检测DEGs。
Blast2GO用于assign GO terms to genes。
比较:
- 转录组和基因组
- map到de novo转录组的reads和reference-based genes
- 在两种方法中找到的DEGs
- 两组方法的GO terms
RNA raw data处理
去adapter,organellar,rRNA和low-quality sequences,保证reads数在20到30百万之间用于DEGs的发现。
De novo assembly
由于转录本剪接变体和片段化序列的存在,只有将近90%的reads可以用Trinity组装,选出每个gene cluster中最长的基因来降低冗余度。BUSCO tools进行转录组的比对找出各自的single copy数和duplicated数,fragments和missing数。