总体设计
比较基于de novo和reference-genome的转录组组装来评估用于鉴定差异表达的基因(DEGs)的reference-free和-dependent两种方法。
RNAseq分析
RNA-seq raw reads用FastQC质检,Trimmomatic,PrinSeq。
cleaned reads用Trinity用于de novo转录组组装;同样的cleaned reads set 用GSNAP map到有reference genome的基因模型。
EdgeR,DESeq2,NOISeq用来normalize read counts和检测DEGs。
Blast2GO用于assign GO terms to genes。
比较:
- 转录组和基因组
- map到de novo转录组的reads和reference-based genes
- 在两种方法中找到的DEGs
- 两组方法的GO terms
RNA raw data处理
去adapter,organellar,rRNA和low-quality sequences,保证reads数在20到30百万之间用于DEGs的发现。
De novo assembly
由于转录本剪接变体和片段化序列的存在,只有将近90%的reads可以用Trinity组装,选出每个gene cluster中最长的基因来降低冗余度。BUSCO tools进行转录组的比对找出各自的single copy数和duplicated数,fragments和missing数。
reads比对到基因组和转录组上
用GSNAP把处理好的reads比对到转录组和基因组上,去除比对到多个位点的 HTSeq-count 命令 “–s no –t gene –m union”对reads计数。生成转录本的GFF特征。每个基因总共map的reads被成衣read长度,除以基因长度。
差异表达基因分析
只考虑read counts大于10的基因,p-value=0.001,DESeq2, edgeR, NOISeq三者取交集用于后续分析。
表达数据的主成因分析
比较转录组和基因组的特征counts使用R package 的prcomp包进行PCA分析,将
de novo转录本和参考基因组匹配的6745个基因RPKM标准化后以及两种方法鉴定的DEGs作为输入。