Poisson Distribution | Gamma distribution | beta distribution | chi-square distribution
2018年04月04日
再谈泊松分布:
一直感觉学统计学太难了,各种分布,傻傻搞不清,就算是现在弄清楚了,以后再实战中见到这个分布的时候还是懵逼。
基本概念:所有统计分布都是用于描述事件发生概率的,所有事件发生概率之和为1,也就是所有概率分布的面积(积分)为1.
泊松分布,也是老早就接触的分布,到现在也没真正搞清楚。
其实我太过于纠结泊松分布的公式,其实只要不是数学统计学方向的人,根本就不需要知道泊松分布的公式是怎么来的!!!完全不用在意这个公式!!!
你只需要泊松分布是用于描述什么实际问题的就好了。
泊松分布,“描述单位时间内随机事件发生的次数的概率分布”,前提是我们知道某段时间内时间发生的平均值。比如我们在观察通过学校大门的人的数量,假设我们已经知道10min内平均通过5人。那么我们就能知道10min内通过1人的概率。怎么知道,直接带入公式即可,泊松分布唯一的一个参数就是入,它就是我们的平均值。
至于这个公式是怎么来的,作为模型应用者,我们完全不需要知道。
应用前提:每个人(每个事件)的发生是相互独立的。(如果总有一些人是同时出现得,那么就不独立,就不能用泊松分布了。)
泊松分布的现实意义是什么,为什么现实生活多数服从于泊松分布?
再举例:如某一服务设施在一定时间内受到的服务请求的次数,电话交换机接到呼叫的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的变异数、放射性原子核的衰变数、激光的光子数分布等等。(万变不离其中:事件单位事件内发生的次数的概率)
泊松分布性质:数学期望与方差相等,同为参数λ:E(X)=V(X)=λ
在RNA-seq中,技术误差是满足泊松分布的,因为期望和方差差不多。但是生物学重复之间的误差不能用泊松分布来描述,因为他的方差可能很大,所以要用负二项分布,加了一个额外的误差项。
再谈二项分布:
二项分布也是学烂了,闭着眼睛都能想到抛硬币问题。
二项分布(英语:Binomial distribution)是n个独立的是/非试验中成功的次数的离散概率分布,其中每次试验的成功概率为p。这样的单次成功/失败试验又称为伯努利试验。实际上,当n = 1时,二项分布就是伯努利分布。
当试验的次数趋于无穷大,而乘积np固定时,二项分布收敛于泊松分布。因此参数为λ = np的泊松分布可以作为二项分布B(n, p)的近似,如果n足够大,而p足够小。