各种富集分析总是用到pvalue,而我的概率论知识和术语快忘完了,所以只能用小学生都能理解的方式和例子来重新缕一遍pvalue.
承接上一篇文章:史上最通俗 Gene enrichment analysis 之 over representation analysis (ORA) 原理解释
以上一篇的ORA为例。
还是抽彩票问题。1000张彩票中有100个有奖,如果我抽了200个,我想知道有40个彩票中奖这种情况有多稀有 。这个问题服从超几何分布。总体数量N = 1000, 总体有奖彩票K = 100, 抽奖次数n=200,参数都有了, 对于P(k=1)到P(k=100) , 我们都能算出来。
同时,参数有了,我们还能出类似下图的概率密度图:
假设对于N = 1000, K = 100, n=200,我们画图如下