二项分布(Binomial distribution)
定义: n个独立的伯努利试验中成功的次数的离散概率分布,其中每次伯努利试验的成功概率为p。
如果随机变量X服从参数为n和p的二项分布,那么记X~b(n, p)。n次试验中得到k次成功的概率由概率质量函数(probability mass function, PMF)给出:
期望为E[X] = np;
方差为Var[X] = np(1 - p)。
负二项分布(Pascal distribution)
定义: 在一系列独立同分布的伯努利试验中,成功次数到达指定次数(记为r)时失败次数的离散概率分布,其中每次伯努利试验的成功概率为p。
如果随机变量X服从参数为r和p的负二项分布,那么记X~NB(r, p)。k次成功的概率由PMF给出:
期望为E[X] = pr/(1 - p);
方差为Var[X] = pr/(1 - p)^2。
现实中有很多情景可用泊松分布来描述,如机器在坏掉前可以工作的天数等等。
泊松分布(Poisson distribution)
定义: 单位时间内随机事件发生次数的随机分布。
如果随机变量X服从参数为λ的泊松分布,那么记为X~Π(λ),或X~P(λ)。k次成功的概率由PMF给出:
均值和方差均为λ。
当λ=50时, 可以认为泊松分布呈正态分布。
现实中有很多情景可用泊松分布来描述,如每天的中奖率,每小时的客流量等等。
泊松分布与二项分布的关系
泊松分布近似于试验次数n很大,成功的概率p很小的二项分布。此时λ = np。
为什么在RNA-seq中对基因进行差异分析时用负二项分布而不是泊松分布?
由上面可知,
对于泊松分布而言,其均值和方差是相等的;
而对于负二项分布而言,方差随着均值的增加而进行二次函数形式的递增。
而我们真实的数据形式是每一个点代表一个基因。均值和方差由replicates估计得到。由图可知,对于每个基因,方差并不与均值相等,而是向上偏离了均值。因此负二项分布是更合适的分布估计。
References:
[1] Binomial distribution -- Wikipedia
[2] Pascal distribution -- Wikipedia
[3] Poisson distribution -- Wikipedia
[4] 负二项分布在差异分析中的应用