最近有一批转录组、蛋白组、代谢组的多组学数据要分析,先找篇文章,看看这种多组学大概是怎么分析的,以及能分析出来啥东西,好让心里面有个底。于是,我找到了下面这篇文献:
文章主要内容是什么?
这篇文章是研究水稻抗旱性的。分别用了抗旱和不抗干旱的两种水稻材料,在普通环境和干旱环境下进行处理,然后进行转录组、蛋白组、代谢组测序,最后整合分析。
样本量有多少?
The seedlings were grown and tissue samples were collected in three independent biological replicates. The same harvested samples were used for the transcriptome, proteome and metabolome analyses.
单个组学的分析方法?
- 转录组:Tophat比对,Cufflinks定量。edgeR差异表达分析,筛选标准:log2fc >= +1 or <=-1 and FDR <= 0.05。
- 蛋白组:MaxQuant 定量,保留FDR<0.01且至少在两个生物学重复中都鉴定到的蛋白,然后使用missForest包进行插值。差异表达分析用edgeR。
- 代谢组:使用GCMS solution software来鉴定峰,使用NIST14和Wiley08来注释峰。保留至少存在于2个生物学重复中的代谢产物,使用missForest插值。使用核糖醇(ribitol)作为内参进行标准化,然后使用edgeR进行差异表达分析。
多组学整合的方法?
筛选出DEGs、DEPs、DEMs后,对每一个DEGs和所有其他DEPs进行相关性分析,筛选出显著相关的。DEGs和DEMs、DEPs和DEMs也进行同样的处理。有点像亚楠之前构建causality network的方法。把得到的结果(表示是否显著相关的p值)使用“Brown's extension method”方法来保证它们时间是相互依赖、相互影响的。
接着把筛选出来的化合物使用KEGG进行功能富集分析。得到DEGs+DEPs、DEGs+DEMs、DEPs+DEMs中共有的通路,进行后续的分析。
得到了什么结论?
- 转录组和蛋白组整合分析:the role of transporters in regulation of drought stress
- 蛋白组:the contribution of translational machinery to drought tolerance in N22
- 代谢组:aromatic amino acids and soluble sugars contribute majorly to drought tolerance in rice.
- 三个组学整合分析:revealed the preference for auxiliary carbohydrate metabolism through glycolysis and pentose phosphate pathway(通过糖酵解和戊糖磷酸途径辅助碳水化合物代谢) contributed to drought tolerance in N22
- L-phenylalanine(L-苯丙氨酸) and the genes/proteins responsible for its biosynthesis were also found to contribute to drought tolerance in N22
文章的最终结论:In conclusion, our study provided mechanistic insights into the drought response/adaptation mechanism and is expected to facilitate engineering of drought tolerance in rice.
看起来并不复杂,得到的结果主要是筛选出来一些通路或者化合物/蛋白质/基因。不过这些东西是怎样筛选出来的呢?还得再写一篇笔记来分析一下。