文章目录
离散型随机变量
超几何分布(Hypergeometric Distribution)
- 基本概念:从有限个(N)物件(其中包含M个指定种类的物件)中不放回地抽出n个物件,成功抽出该指定种类的物件的次数,服从超几何分布,常表示为 X ∼ H ( N , M , n ) X \sim H(N,M,n) X∼H(N,M,n)。
- 分布律(密度函数):
P { X = k ∣ N , M , n } = C M k C N − M n − k C N n P\{X=k|N,M,n\}=\frac{C_{M}^{k}C_{N-M}^{n-k}}{C_{N}^{n}} P{X=k∣N,M,n}=CNnCMkCN−Mn−k - 基本性质:
- 期望: E ( X ) = n M N E(X) = \frac{nM}{N} E(X)=NnM
- 方差: D ( X ) = n M N − ( n M N ) 2 + n ( n − 1 ) M ( M − 1 ) N ( N − 1 ) D(X) = \frac{nM}{N} - (\frac{nM}{N})^2 + \frac{n(n-1)M(M-1)}{N(N-1)} D(X)=NnM−(NnM)2+N(N−1)n(n−1)M(M−1)
- R中对应函数:
- dhyper(x, m, n, k, log = FALSE)
- phyper(q, m, n, k, lower.tail = TRUE, log.p = FALSE)
- qhyper(p, m, n, k, lower.tail = TRUE, log.p = FALSE)
- rhyper(nn, m, n, k)
其中m表示指定种类的物件个数,即M;n表示其他种类的物件个数,故N=m+n;k为不放回抽取的次数,即n。
使用R中函数的参数获得的超几何分布为: X ∼ H ( m + n , m , k ) X \sim H(m+n,m,k) X∼H(m+n,m,k)
二项分布(Binomial Distribution)
- 基本概念:在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生的概率p在每一次独立试验中都保持不变,则称该试验为伯努利试验。一个伯努利试验进行n次(n重伯努利试验)后,事件发生的次数符合二项分布。常表示为 X ∼ b ( n , p ) X \sim b(n,p) X∼b(n,p)。
- 分布律(密度函数):
P { X = k ∣ n , p } = C n k p k ( 1 − p ) n − k , k = 0 , 1 , 2 , … , n P\{X=k|n,p\}=C_{n}^{k} p^{k}(1-p)^{n-k}, k=0,1,2, \ldots, n P{X=k∣n,p}=Cnkpk(1−p)n−k,k=0,1,2,…,n - 基本性质:
- 期望: E ( X ) = n p E(X) = np E(X)=np
- 方差: D ( X ) = n p ( 1 − p ) D(X) = np(1-p) D(X)=np(1−p)
- 其他:
- 当n=1时的二项分布即为伯努利分布、两点分布、0-1分布;
- 当 k = [ ( n + 1 ) p ] k = [(n+1)p] k=[(n+1)p]时, P { X = k ∣ n , p } P\{X=k|n,p\} P{X=k∣n,p}取得最大值;
- R中对应函数:
- dbinom(x, size, prob, log = FALSE)
- pbinom(q, size, prob, lower.tail = TRUE, log.p = FALSE)
- qbinom(p, size, prob, lower.tail = TRUE, log.p = FALSE)
- rbinom(n, size, prob)
其中size为进行伯努利试验的次数n,prob为事件发生概率p,x即为n次试验中事件发生次数k的向量。对于rbinom,即为对符合二项分布 X ∼ b ( s i z e , p r o b ) X \sim b(size,prob) X∼b(size,prob)的随机变量抽样n次。
多项分布(Multinomial Distribution)
- 基本概念:多项分布是二项分布的扩展,即每次试验可能的结果为k种( k ≥ 2 k \ge 2 k≥2),每种结果发生的概率为 p 1 , p 2 , … , p k p_1,p_2,\ldots,p_k p1,p2,…,pk,且每种结果发生与否均互相对立,故有 ∑ i = 1 k p i = 1 \sum_{i=1}^{k} p_{i}=1 ∑i=1kpi=1。试验进行n次后,k种可能的结果发生指定的次数( m 1 , m 2 , … , m k m_1,m_2,\ldots,m_k m1,m2,…,mk)符合多项分布,常表示为 X ∼ P ( n , p 1 , p 2 , … , p k ) X \sim P(n,p_1,p_2,\ldots,p_k) X∼P(n,p1,p2,…,pk)。多项分布最常见的例子即为掷骰子。
- 分布律(密度函数):
P { X 1 = m 1 , X 2 = m 2 , … , X k = m k ∣ n , p 1 , p 2 , … , p k } = n ! m 1 ! m 2 ! ⋯ m k ! p 1 m 1 p 2 m 2 ⋯ p k m k = n ! ∏ i = 1 k p i m i m i ! \begin{aligned} & P\{X_1=m_1,X_2=m_2,\ldots,X_k=m_k | n,p_1,p_2,\ldots,p_k \} \\ & = \frac{n!}{m_1!m_2! \cdots m_k!} p_1^{m_1}p_2^{m_2} \cdots p_k^{m_k} \\ & = n!\prod_{i=1}^{k} \frac{p_{i}^{m_{i}}}{m_{i} !} \end{aligned} P{X1=m1,X2=m2,…,Xk=mk∣n,p1,p2,…,pk}=m1!m2!⋯mk!n!p1m1p2m2⋯pkmk=n!i=1∏kmi!pimi - 其他:
- 多项分布的随机变量是一个长度为k的向量,k即为所有可能结果的种类数;
- 多项分布都可以通过将可能结果进行合并转化为二项分布。如对于掷骰子n次,6个面出现的次数向量服从多项分布。若仅关注一个面,如1向上的次数,其实就转化为了二项分布(合并了所有非1向上的结果)。
- R中对应函数:
- dmultinom(x, size = NULL, prob, log = FALSE)
- rmultinom(n, size, prob)
其中size为进行试验的次数n;prob为各种结果发生的概率向量,且该向量的加和应为1;x即为n次试验中每种结果发生次数的向量,且该向量的加和应为n。由于多项分布的随机变量是一个向量,故rmultinom返回的是一个n列,k行的矩阵。k为prob的向量长度,每一列表示随机获取的服从多项分布的一个随机向量,且每一列的加和为size。
泊松分布(Poisson Distribution)
- 基本概念:当一个随机事件,例如某电话交换台收到的呼叫、来到某公共汽车站的乘客、某放射性物质发射出的粒子、显微镜下某区域中的白血球等等,以固定的平均瞬时速率(或称密度) λ \lambda λ随机且独立地出现时,那么这个事件在单位时间内出现的次数就近似地服从泊松分布。常表示为 X ∼ π ( λ ) X \sim \pi(\lambda) X∼π(λ)。
- 分布律(密度函数):
P { X = k ∣ λ } = λ k e − λ k ! , k = 0 , 1 , 2 , … P\{X=k|\lambda\}=\frac{\lambda^{k} e^{-\lambda}}{k!}, k=0,1,2, \ldots P{X=k∣λ}=k!λke−λ,k=0,1,2,…
即在单位时间平均出现 λ \lambda λ次的事件,实际出现k次的概率。 - 基本性质:
- 期望: E ( X ) = λ E(X) = \lambda E(X)=λ
- 方差: D ( X ) = λ D(X) = \lambda D(X)=λ
- 其他:
- 当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中令 λ = n p \lambda = np λ=np。通常当 n ≥ 20 , p ≤ 0.05 n\ge20, p\le0.05 n≥20,p≤0.05时,就可以用泊松公式近似得计算;
- 根据定义可知泊松分布往往在期望值处,即 x = λ x = \lambda x=λ处取得最大值。
- R中对应函数:
- dpois(x, lambda, log = FALSE)
- ppois(q, lambda, lower.tail = TRUE, log.p = FALSE)
- qpois(p, lambda, lower.tail = TRUE, log.p = FALSE)
- rpois(n, lambda)
连续性随机变量
均匀分布(Uniform Distribution)
- 基本概念:随机变量在区间 ( a , b ) (a,b) (a,b)中任意等长度的子区间内出现的可能性是相同的,则称该随机变量在区间 ( a , b ) (a,b) (a,b)上服从均匀分布。常表示为 X ∼ U ( a , b ) X \sim U(a,b) X∼U(a,b)。
- 密度函数:
f ( x ∣ a , b ) = { 1 b − a a < x < b 0 x ≤ a or x ≥ b f(x|a,b)=\left\{ \begin{array}{cc}{ \frac{1}{b-a}} & {a<x<b} \\ {0} & {x \leq a \text { or } x \geq b} \end{array} \right. f(x∣a,b)={b−a10a<x<bx≤a or x≥b - 分布函数:
F ( x ∣ a , b ) = { 0 x ≤ a x − a b − a a < x < b 1 x ≥ b F(x|a,b)=\left\{ \begin{array}{ll} {0} & {x \leq a} \\ {\frac{x-a}{b-a}} & {a<x<b} \\ {1} & {x \geq b} \end{array} \right. F(x∣a,b)=⎩⎨⎧0b−ax−a1x≤aa<x<bx≥b - 基本性质:
- 期望: E ( X ) = a + b 2 E(X) = \frac{a+b}{2} E(X)=2a+b
- 方差: D ( X ) = ( b − a ) 2 12 D(X) = \frac{(b-a)^2}{12} D(X)=12(b−a)2
- 其他:
- ;
- R中对应函数:
- dunif(x, min = 0, max = 1, log = FALSE)
- punif(q, min = 0, max = 1, lower.tail = TRUE, log.p = FALSE)
- qunif(p, min = 0, max = 1, lower.tail = TRUE, log.p = FALSE)
- runif(n, min = 0, max = 1)
指数分布(Exponential Distribution)
- 基本概念:对于在单位时间内出现次数服从泊松分布 X ∼ π ( λ ) X \sim \pi(\lambda) X∼π(λ)的事件,两个该事件发生之间的时间间隔则服从指数分布,常表示为 X ∼ E x p ( λ ) X \sim Exp(\lambda) X∼Exp(λ),该事件单位时间发生次数为 λ \lambda λ,两次事件发生的时间间隔为 1 λ \frac{1}{\lambda} λ1。
- 密度函数:
f ( x ∣ λ ) = { 0 x ≤ 0 λ e − λ x x > 0 f(x|\lambda)=\left\{ \begin{array}{cc} {0} & {x \leq 0} \\ {\lambda {e}^{-\lambda x}} & {x>0} \end{array} \right. f(x∣λ)={0λe−λxx≤0x>0 - 分布函数:
F ( x ∣ λ ) = { 0 x ≤ 0 1 − e − λ x x > 0 F(x|\lambda)=\left\{ \begin{array}{cc} {0} & {x \leq 0} \\ {1-e^{-\lambda x}} & {x>0} \end{array} \right. F(x∣λ)={01−e−λxx≤0x>0 - 基本性质:
- 期望:
E
(
X
)
=
1
λ
E(X) = \frac{1}{\lambda}
E(X)=λ1
比如平均每个小时接到2次电话,那么你预期等待每一次电话的时间是半个小时 - 方差: D ( X ) = 1 λ 2 D(X) = \frac{1}{\lambda^2} D(X)=λ21
- 期望:
E
(
X
)
=
1
λ
E(X) = \frac{1}{\lambda}
E(X)=λ1
- 其他:
- 指数分布最重要的性质即为“无记忆性”:
P { X > s + t ∣ X > s } = P { X > t } P\{X \gt s+t | X \gt s\} = P\{X \gt t\} P{X>s+t∣X>s}=P{X>t}
如X代表某一电子元件的寿命,那么若已经使用s个小时后,能至少再使用t个小时(总寿命s+t)的概率,与一个新的这种电子元件能至少使用t个小时的概率一样。就是这种电子元件不管已经用了多久,能再用多久的概率一样。
- 指数分布最重要的性质即为“无记忆性”:
- R中对应函数:
- dexp(x, rate = 1, log = FALSE)
- pexp(q, rate = 1, lower.tail = TRUE, log.p = FALSE)
- qexp(p, rate = 1, lower.tail = TRUE, log.p = FALSE)
- rexp(n, rate = 1)
其中rate即为 λ \lambda λ,留意指数分布与泊松分布的联系,rate对应泊松分布中的“密度”概念。
正态分布(Normal Distribution)
- 基本概念:正态分布是最重要的分布,也称为高斯分布、常态分布。常表示为 X ∼ N ( μ , σ 2 ) X \sim N(\mu, \sigma^2) X∼N(μ,σ2)。
- 密度函数:
f ( x ∣ μ , σ ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 , − ∞ < x < ∞ f(x|\mu, \sigma)=\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}},-\infty<x<\infty f(x∣μ,σ)=2πσ1e−2σ2(x−μ)2,−∞<x<∞ - 分布函数:
F ( x ∣ μ , σ ) = 1 2 π σ ∫ − ∞ x e − ( t − μ ) 2 2 σ 2 d t F(x|\mu, \sigma)=\frac{1}{\sqrt{2 \pi} \sigma} \int_{-\infty}^{x} e^{-\frac{(t-\mu)^{2}}{2 \sigma^{2}}} \mathrm{d} t F(x∣μ,σ)=2πσ1∫−∞xe−2σ2(t−μ)2dt - 基本性质:
- 期望: E ( X ) = μ E(X) = \mu E(X)=μ
- 方差: D ( X ) = σ 2 D(X) = \sigma^2 D(X)=σ2
- 其他:
- 密度函数关于 x = μ x = \mu x=μ对称,在 x = μ x = \mu x=μ时取得最大值 f ( μ ) = 1 2 π σ f(\mu) = \frac{1}{\sqrt{2 \pi} \sigma} f(μ)=2πσ1,距离 μ \mu μ越远 f ( x ) f(x) f(x)越小(钟形图);
- 当 σ \sigma σ越小,图形越尖;
- 当 μ = 0 , σ = 1 \mu = 0, \sigma = 1 μ=0,σ=1时成为标准正态分布,表示为 X ∼ N ( 0 , 1 ) X \sim N(0, 1) X∼N(0,1);
- 对于任意正态分布
X
∼
N
(
μ
,
σ
2
)
X \sim N(\mu, \sigma^2)
X∼N(μ,σ2),其线性变化也是服从正态分布的:
Y = a X + b ∼ N ( a μ + b , ( a σ ) 2 ) Y = aX + b \sim N(a\mu+b, {(a\sigma)}^2) Y=aX+b∼N(aμ+b,(aσ)2)
因此任意正态分布均可转化为标准正态分布:
Z = X − μ σ ∼ N ( 0 , 1 ) Z = \frac{X-\mu}{\sigma} \sim N(0,1) Z=σX−μ∼N(0,1) - 对于n个互相独立的正态分布
X
i
∼
N
(
μ
i
,
σ
i
2
)
(
i
=
1
,
2
,
…
,
n
)
X_i \sim N(\mu_i, \sigma_i^2) (i=1,2,\ldots,n)
Xi∼N(μi,σi2)(i=1,2,…,n),它们的和
Z
=
X
1
+
X
2
+
⋯
+
X
n
Z=X_1 + X_2 + \dots + X_n
Z=X1+X2+⋯+Xn依然服从正态分布,且
Z ∼ N ( μ 1 + μ 2 + ⋯ + μ n , σ 1 2 + σ 2 2 + ⋯ + σ n 2 ) Z \sim N(\mu_1+\mu_2+\dots+\mu_n, \sigma_1^2+\sigma_2^2+\dots+\sigma_n^2) Z∼N(μ1+μ2+⋯+μn,σ12+σ22+⋯+σn2)
- R中对应函数:
- dnorm(x, mean = 0, sd = 1, log = FALSE)
- pnorm(q, mean = 0, sd = 1, lower.tail = TRUE, log.p = FALSE)
- qnorm(p, mean = 0, sd = 1, lower.tail = TRUE, log.p = FALSE)
- rnorm(n, mean = 0, sd = 1)
其中mean即为 μ \mu μ,即期望;sd即为 σ \sigma σ,即标准差。
伽马分布(Gamma Distribution)
-
基本概念:伽马分布可以看作是 α \alpha α个指数分布 X ∼ E x p ( λ ) X \sim Exp(\lambda) X∼Exp(λ)的独立随机变量的加和,常表示为 X ∼ Γ ( α , λ ) X \sim \Gamma(\alpha, \lambda) X∼Γ(α,λ),故当 α = 1 \alpha = 1 α=1时的伽马分布就是指数分布,即 Γ ( 1 , λ ) = E x p ( λ ) \Gamma(1, \lambda) = Exp(\lambda) Γ(1,λ)=Exp(λ)。
-
密度函数:
f ( x ∣ α , λ ) = { 0 x ≤ 0 λ α Γ ( α ) x α − 1 e − λ x x > 0 f(x|\alpha, \lambda)=\left\{ \begin{array}{cc} {0} & {x \leq 0} \\ {\frac{\lambda^{\alpha}}{\Gamma(\alpha)} x^{\alpha-1} \mathrm{e}^{-\lambda x}} & {x>0} \end{array} \right. f(x∣α,λ)={0Γ(α)λαxα−1e−λxx≤0x>0Γ ( α ) \Gamma(\alpha) Γ(α)为伽马函数,是定义在复数域的阶乘:
Γ ( x ) = ∫ 0 + ∞ t x − 1 e − t d t = 2 ∫ 0 + ∞ t 2 x − 1 e − t 2 d t \Gamma(x)=\int_{0}^{+\infty} t^{x-1} e^{-t} \mathrm{d}t = 2 \int_{0}^{+\infty} t^{2 x-1} e^{-t^{2}} d t Γ(x)=∫0+∞tx−1e−tdt=2∫0+∞t2x−1e−t2dt
伽马函数基本性质:- Γ ( x + 1 ) = x Γ ( x ) \Gamma(x+1) = x\Gamma(x) Γ(x+1)=xΓ(x)(复数域上的阶乘概念)
- 对于整数n,有 Γ ( n ) = ( n − 1 ) ! \Gamma(n) = (n-1)! Γ(n)=(n−1)!
-
分布函数:
-
基本性质:
- 期望: E ( X ) = α λ E(X) = \frac{\alpha}{\lambda} E(X)=λα
- 方差: D ( X ) = α λ 2 D(X) = \frac{\alpha}{\lambda^2} D(X)=λ2α
-
其他:
- 注意伽马分布与卡方分布的联系:
Γ ( n 2 , 2 ) = χ 2 ( n ) \Gamma(\frac{n}{2}, 2) = \chi^2(n) Γ(2n,2)=χ2(n) - 伽马分布与指数分布的联系:
Γ ( 1 , λ ) = E x p ( λ ) \Gamma(1, \lambda) = Exp(\lambda) Γ(1,λ)=Exp(λ) - 伽马分布具有可加性。即若 X 1 , X 2 , … , X n X_1,X_2,\ldots,X_n X1,X2,…,Xn相互独立,且均服从伽马分布, X i ∼ Γ ( α i , λ ) X_i \sim \Gamma(\alpha_i,\lambda) Xi∼Γ(αi,λ),那么它们的和也服从伽马分布, Z = X 1 + X 2 + ⋯ + X n ∼ Γ ( α 1 + α 2 + … + α n , λ ) Z=X_1 + X_2 + \dots + X_n \sim \Gamma(\alpha_1+\alpha_2+\ldots+\alpha_n,\lambda) Z=X1+X2+⋯+Xn∼Γ(α1+α2+…+αn,λ)。这一点也可以从伽马分布的定义上推断:一个伽马分布是 α \alpha α个指数分布的加和,那么只要是同一个指数分布( λ \lambda λ参数一致),再多加几个一样是伽马分布。
- 注意伽马分布与卡方分布的联系:
-
R中对应函数:
- dgamma(x, shape, rate = 1, scale = 1/rate, log = FALSE)
- pgamma(q, shape, rate = 1, scale = 1/rate, lower.tail = TRUE, log.p = FALSE)
- qgamma(p, shape, rate = 1, scale = 1/rate, lower.tail = TRUE, log.p = FALSE)
- rgamma(n, shape, rate = 1, scale = 1/rate)
伽马分布中 α \alpha α即为形状参数(shape parameter),就是函数中的shape,该参数决定了伽马分布的形状; λ \lambda λ即为rate,与指数分布中的rate、泊松分布中的lambda一致;scale就是rate的倒数,称为尺度参数(scale parameter),决定了伽马分布的曲线陡峭程度,scale越小,rate越大,曲线越陡。
小结
- 在离散型随机变量中,分布律直接求得的是随机变量等于某个具体值的概率,故一定是在0到1之间的;而对于连续型随机变量,变量取得某一个具体值的概率均无意义(或可认为是0),故连续型随机变量的密度函数表征的并不是随机变量取得该值时的概率,因此密度函数可以大于1。一定要记住对于连续型随机变量,人们更关注的是变量值落在某个区间上的概率,因此更重要的是密度函数的积分,即分布函数。
- 联系超几何分布和二项分布:
- 超几何分布是不放回抽样,二项分布是放回抽样。也就是说二项分布中每个事件之间是相互独立的,而超几何分布不是。
- 超几何分布需要知道总体的容量,也就是总体个数有限;而二项分布不需要知道总体容量,但需要知道“成功率”。
- 超几何分布关心的是已经进行采样的结果,是“向后看”的;而二项分布关心的是还未发生的事件,是“向前看”的。进而,超几何分布的极限就是二项分布,即当抽样的结果N趋近于无穷时,其近似于二项分布,且 p = M N p=\frac{M}{N} p=NM。
- 联系泊松分布、指数分布和伽马分布:
- 泊松分布解决的是“在特定时间里发生n个事件的机率”,即单位时间随机事件发生的次数;
- 指数分布解决的问题是“要等到一个随机事件发生,需要经历多久时间”,即两个随机事件之间的时间间隔;
- 伽马分布解决的问题是“要等到n个随机事件都发生,需要经历多久时间”,就是n个指数分布的和,n即为伽马分布中的 α \alpha α;
- 注意到当
α
=
k
+
1
,
λ
=
1
\alpha = k+1, \lambda = 1
α=k+1,λ=1时,伽马分布概率密度为:
Γ ( k + 1 , 1 ) = x k e − x Γ ( k + 1 ) = x k e − x k ! \Gamma(k+1, 1)= \frac{x^{k} \mathrm{e}^{-x}}{\Gamma(k+1)} = \frac{x^{k} \mathrm{e}^{-x}}{k!} Γ(k+1,1)=Γ(k+1)xke−x=k!xke−x
与泊松分布的分布律相比:
P { X = k ∣ λ } = λ k e − λ k ! P\{X=k|\lambda\}=\frac{\lambda^{k} e^{-\lambda}}{k!} P{X=k∣λ}=k!λke−λ
可以发现伽马分布的密度函数中的x替换为泊松分布中的 λ \lambda λ,公式是等同的。伽马分布的密度函数是一个关于x和k的二维概率分布,若将x看做是单位时间内事件发生的平均次数(泊松分布中的 λ \lambda λ),k是单位时间内事件发生的某一特定次数(泊松分布中的k)。作图如下:
发现如果将x固定一个常数,就是泊松分布。即从x轴方向任意位置 x = m x=m x=m截取伽马分布,截面上的图像即为泊松分布 π ( m ) \pi(m) π(m)
所以,伽马分布与泊松分布在数学形式上是一致的。可以直观的认为伽马分布是泊松分布在正实数集上的连续化版本。
- R中的分布函数往往以"首字母+分布名称"的方式定义了四个函数:
- ‘d + {distName}’(Density):获取指定随机变量的概率密度函数(连续型随机变量)或概率分布律(离散型随机变量)的取值;
- ‘p + {distName}’(Probability):获取指定随机变量的分布函数的取值,即 F ( x ) = P { X ≤ x } F(x) = P\{X \le x\} F(x)=P{X≤x};
- ‘q + {distName}’(Quantile):获取分位数,即分布函数的反函数 F − 1 ( x ) F^{-1}(x) F−1(x)的取值。即当 P { X ≤ Z α } = α P\{X \leq Z_\alpha\} = \alpha P{X≤Zα}=α时,给出 α \alpha α分位求该分位上的分位数 Z α Z_\alpha Zα;
- ‘r + {distName}’(Random):对符合分布的随机变量进行随机采样
参考材料
https://blog.csdn.net/lynn0085/article/details/79338611
https://www.jianshu.com/p/6ee90ba47b4a
https://blog.csdn.net/ccnt_2012/article/details/89875865