基因表达真的是正态分布吗?

基因表达真的是正态分布吗?

最近在做一些基因表达方面的分析,发现不少方法都假设基因表达服从正态分布,于是不禁在想这个假设存在的合理之处是什么?实际情况符合程度如何?

先回答第一个问题,为什么假设基因表达服从正态分布?

本质是因为化学反应的随机碰撞决定的。(暂时不展开说,之后再写一篇来总结下这个方面的内容)

再回答第二个问题,实际情况是否是这样的?

正巧发现Biorxiv上有一篇文章[1],分析了TCGA中三个肿瘤类型的基因表达情况。发现只有不到50%的基因是服从正态分布的,其他分布包括Gamma,Bimodal,Cauchy和Lognormal,同时发现考虑基因表达的分布情况提高病人生存率的预测。我将在这篇文章中简述作者使用的方法以及重要结论。

图1. 6种不同的概率分布类型

概率分布的判断方法

图2. 概率分布的判断方法

划重点!!!!⭐⭐⭐⭐⭐⭐

  1. 超过50%的转录组不服从正态分布,对于RNA-seq数据来说,三个种癌症正态分布分别为,骨髓性白血病AML 30.29%,多形性成胶质细胞瘤GBM 41.8%,卵巢癌 43.18%。Gamma分布是仅次于正态分布的数据类型,范围在21-32%。
  2. 非正态分布的基因表达情况也可以判断生存结果:生存分析预测。
  3. 非正态分布的基因可以鉴别预后标志基因:GSEA分析。
  4. 将基因表达分布类型考虑进去可以提高一个分类器的效果:将分布类型作为一个数据特征来做预后效果的分类,用病人真是的生存结果来做评判。
  5. Box-Cox变换不影响正态分布基因的数量:应用统计中经常用Box-Cox变换是非正态分布数据变为正态分布数据,但作者发现,这样的变换并没有达到这个效果。

注:

上述说的基因表达水平是经过log2变换的。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值