基因表达真的是正态分布吗?
最近在做一些基因表达方面的分析,发现不少方法都假设基因表达服从正态分布,于是不禁在想这个假设存在的合理之处是什么?实际情况符合程度如何?
先回答第一个问题,为什么假设基因表达服从正态分布?
本质是因为化学反应的随机碰撞决定的。(暂时不展开说,之后再写一篇来总结下这个方面的内容)
再回答第二个问题,实际情况是否是这样的?
正巧发现Biorxiv上有一篇文章[1],分析了TCGA中三个肿瘤类型的基因表达情况。发现只有不到50%的基因是服从正态分布的,其他分布包括Gamma,Bimodal,Cauchy和Lognormal,同时发现考虑基因表达的分布情况提高病人生存率的预测。我将在这篇文章中简述作者使用的方法以及重要结论。
图1. 6种不同的概率分布类型
概率分布的判断方法
图2. 概率分布的判断方法
划重点!!!!⭐⭐⭐⭐⭐⭐
- 超过50%的转录组不服从正态分布,对于RNA-seq数据来说,三个种癌症正态分布分别为,骨髓性白血病AML 30.29%,多形性成胶质细胞瘤GBM 41.8%,卵巢癌 43.18%。Gamma分布是仅次于正态分布的数据类型,范围在21-32%。
- 非正态分布的基因表达情况也可以判断生存结果:生存分析预测。
- 非正态分布的基因可以鉴别预后标志基因:GSEA分析。
- 将基因表达分布类型考虑进去可以提高一个分类器的效果:将分布类型作为一个数据特征来做预后效果的分类,用病人真是的生存结果来做评判。
- Box-Cox变换不影响正态分布基因的数量:应用统计中经常用Box-Cox变换是非正态分布数据变为正态分布数据,但作者发现,这样的变换并没有达到这个效果。
注:
上述说的基因表达水平是经过log2变换的。