[Skill]程序员须掌握的概率统计基础知识

前言

计算机科学作为理工科一个独特的分支,本质上仍然是建立在逻辑思维上的一门科学,良好的概率论思维有助于设计高效可行的算法。

常见的概率分布

1. 古典概型和几何概型

古典概型适用于随机事件 E E E的样本空间只有有限个样本点,而几何概型适用于样本空间是某一可度量的几何区域。

  • 古典概型

设随机实验 E E E的样本空间为 Ω = { w 1 , w 2 , . . . , w n } \Omega = \{w_1,w_2, ..., w_n\} Ω={w1,w2,...,wn},其中 n n n为样本点总数,每个样本点出现的概率是相等的,并且每次实验有且仅有一个样本点发生。如果事件 A A A包含 m m m个样本点,那么对应的概率 P ( A ) P(A) P(A)为:
P ( A ) = m n P(A) = \frac{m}{n} P(A)=nm

  • 几何概型

当随机实验 E E E的样本空间是某一可度量的几何区域,并且任意一点在度量(长度、面积和体积等)相同的子区域内是等概率的,则事件 A A A的概率为:
P ( A ) = S A S P(A) = \frac{S_A}{S} P(A)=SSA

2. 条件概率

即在某个事件已经发生的条件下另一事件发生的概率。

A A A B B B是两个事件,而且 P ( B ) > 0 P(B)>0 P(B)>0,称:
P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B) = \frac{P(AB)}{P(B)} P(AB)=P(B)P(AB)
为在事件 B B B发生的条件下,事件 A A A发生的条件概率。

3. 三条重要的公式:乘法公式、全概率公式和贝叶斯公式
  • 乘法公式

根据条件概率公式,我们可以得到:
P ( A B ) = P ( A ∣ B ) P ( B ) = P ( B ∣ A ) P ( A ) P(AB) = P(A|B)P(B) = P(B|A)P(A) P(AB)=P(AB)P(B)=P(BA)P(A)
可推广到任意正整数 n ≥ 2 n \geq 2 n2的情形,当 P ( A 1 A 2 . . . A n − 1 ) > 0 P(A_1A_2...A_{n-1})>0 P(A1A2...An1)>0时,有:
P ( A 1 A 2 . . . A n ) = P ( A 1 ) P ( A 2 ∣ A 1 ) P ( A 3 ∣ A 1 A 2 ) . . . P ( A n ∣ A 1 A 2 . . . A n − 1 ) P(A_1A_2...A_n)=P(A_1)P(A_2|A_1)P(A_3|A_1A_2)...P(A_n|A_1A_2...A_{n-1}) P(A1A2...An)=P(A1)P(A2A1)P(A3A1A2)...P(AnA1A2...An1)

  • 全概率公式

也是基于条件概率公式推导的,如果 B 1 , B 2 , . . . B_1,B_2,... B1,B2,...是样本空间 Ω \Omega Ω的一个划分,即满足 B i , i = 1 , 2 , . . . B_i,i = 1,2,... Bi,i=1,2,...互不相交且:
B 1 ∪ B 2 ∪ . . . = Ω B_1 \cup B_2 \cup ... = \Omega B1B2...=Ω
对于任意事件 A A A,我们可以得到全概率公式如下:
P ( A ) = ∑ i = 1 ∞ P ( B i ) P ( A ∣ B i ) P(A) = \sum_{i=1}^{\infty}P(B_i)P(A|B_i) P(A)=i=1P(Bi)P(ABi)

  • 贝叶斯公式

整合了乘法公式和全概率公式:
P ( B i ∣ A ) = P ( B i A ) P ( A ) = P ( B i ) P ( A ∣ B i ) ∑ j = 1 ∞ P ( B j ) P ( A ∣ B j ) , j = 1 , 2 , . . . P(B_i|A) = \frac{P(B_iA)}{P(A)} = \frac{P(B_i)P(A|B_i)}{\sum_{j=1}^{\infty}P(B_j)P(A|B_j)}, j=1,2,... P(BiA)=P(A)P(BiA)=j=1P(Bj)P(ABj)P(Bi)P(ABi),j=1,2,...

4. 独立事件

如果两事件发生的概率等于这两个事件发生概率的乘积,则可以认为这俩事件独立,即:
P ( A B ) = P ( A ) P ( B ) P(AB) = P(A)P(B) P(AB)=P(A)P(B)

这是从统计学上给出的独立定义,现实生活中我们也可以通过经验敲定两个事件的大致独立性,尽管它们可能存在千丝万缕的关联。

5. n重伯努利实验

如果一个随机试验只有两种可能的结果 A A A A ˉ \bar{A} Aˉ,且:
P ( A ) = p , P ( A ˉ ) = 1 − p = q P(A) = p, P(\bar{A}) = 1-p=q P(A)=p,P(Aˉ)=1p=q
那么此试验即是伯努利实验,如果该实验独立重复地进行 n n n次就是 n n n重伯努利试验。设 A k A_k Ak n n n重伯努利实验中 A A A出现 k k k次的概率,则 P ( A ) P(A) P(A)可表示为:
P ( A k ) = C n k p k ( 1 − p ) n − k , k = 0 , 1 , 2 , . . . P(A_k)=C_{n}^{k}p^k(1-p)^{n-k}, k =0,1,2,... P(Ak)=Cnkpk(1p)nk,k=0,1,2,...
这就是二项分布,常记成 B ( n , k ) B(n,k) B(n,k)

常见的分布函数

1.随机变量的分布函数

X X X为一个随机变量,则对任意的实数 x x x,该随机变量的分布函数可表示为:
F ( x ) = P { X < x } , x ∈ ( − ∞ , + ∞ ) F(x) = P\{X<x\}, x\in(-\infty, +\infty) F(x)=P{X<x},x(,+)

2.离散型随机变量的分布
  • 离散型随机变量

离散型随机变量指的是随机变量 X X X的全部可能取值为有限多个或可列无穷多个。

记离散型随机变量 X X X取值为 x k x_k xk的概率为 P { X = x k } = p k P\{X=x_k\}=p_k P{X=xk}=pk,离散型随机变量 X X X的分布律 p k p_k pk满足 p k ≥ 0 p_k \geq 0 pk0 ∑ k = 1 ∞ p k = 1 \sum_{k=1}^{\infty}p_k=1 k=1pk=1

  • 两点分布

两点分布 X ∼ B ( 1 , p ) X \sim B(1,p) XB(1,p)中随机变量 X X X的分布律为:
P { X = k } = p k ( 1 − p ) 1 − k , k = 0 , 1 ( 0 < p < 1 ) P\{X=k\}=p^k(1-p)^{1-k}, k = 0,1 (0<p<1) P{X=k}=pk(1p)1k,k=0,1(0<p<1)

  • 伯努利分布

若随机变量 X X X服从参数为 n n n p p p的二项分布 X ∼ B ( n , p ) X\sim B(n,p) XB(n,p),则其分布律满足:
P { X = k } = C n k p k ( 1 − p n − k ) , k = 0 , 1 , 2 , . . . , n P\{X=k\} = C_n^k p^k(1-p^{n-k}), k=0,1,2,...,n P{X=k}=Cnkpk(1pnk),k=0,1,2,...,n

其代表的含义表示 n n n重伯努利实验中 A A A恰好发生 k k k次的概率。

  • 泊松分布

若随机变量 X X X服从参数为 λ \lambda λ的泊松分布 X ∼ P ( λ ) X\sim P(\lambda) XP(λ),则其分布律满足:
P { X = k } = λ k e − λ k ! , k = 0 , 1 , 2... , P\{X=k\} = \frac{\lambda^ke^{-\lambda}}{k!},k=0,1,2..., P{X=k}=k!λkeλ,k=0,1,2...,

3.连续型随机变量的分布
  • 连续型随机变量

如果 X X X为连续型随机变量,则存在一个定义在 ( − ∞ , + ∞ ) (-\infty,+\infty) (,+)上的非负函数 f ( x ) f(x) f(x),使得对于任意实数 x x x,总有:
F ( x ) = P { X ≤ x } = ∫ − ∞ x f ( t ) d t , − ∞ < x < + ∞ F(x) = P\{X\leq x\} = \int_{-\infty}^{x} f(t) dt,-\infty < x < +\infty F(x)=P{Xx}=xf(t)dt,<x<+

  • 均匀分布

若随机变量 X X X服从区间 [ a , b ] [a,b] [a,b]上的均匀分布 X ∼ U [ a , b ] X\sim U[a,b] XU[a,b],则其概率密度函数为:
f ( x ) = { 1 b − a , a ≤ x ≤ b 0 , o t h e r s f(x) = \left\{\begin{matrix} \frac{1}{b-a}, &a\leq x\leq b \\ 0 ,&others \end{matrix}\right. f(x)={ba1,0,axbothers

  • 指数分布

若随机变量 X X X服从参数为\lambda的指数分布,则其概率密度函数为:
f ( x ) = { λ e − λ x , x ≥ 0 0 , x < 0 f(x) = \left\{\begin{matrix} \lambda e^{-\lambda x}, & x\geq 0 \\ 0 ,& x<0 \end{matrix}\right. f(x)={λeλx,0,x0x<0

  • 正态分布

若随机变量 X X X服从参数为 μ \mu μ σ \sigma σ的正态分布 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) XN(μ,σ2),则其概率密度函数为:
f ( x ) = 1 2 π σ e x p { − ( x − μ ) 2 2 σ 2 } , − ∞ < x < + ∞ f(x) = \frac{1}{\sqrt{2\pi \sigma}}exp\{-\frac{(x-\mu)^2}{2\sigma^2}\}, -\infty < x <+\infty f(x)=2πσ 1exp{2σ2(xμ)2},<x<+

3.离散型二维随机向量

记离散型而维随机向量 ( X , Y ) (X,Y) (X,Y)取值为 ( x i , y j ) (x_i,y_j) (xi,yj)的概率为 P { X = x i , Y = y j } = p i j , i , j = 1 , 2 , . . . P\{X=x_i,Y=y_j\} = p_{ij}, i,j=1,2,... P{X=xi,Y=yj}=pij,i,j=1,2,...,且其分布律满足 ∑ i ∑ j p i j = 1 \sum_{i}\sum_{j}p_{ij}=1 ijpij=1

4.连续型二维随机向量

如果 ( X , Y ) (X,Y) (X,Y)是连续型的二维随机向量,则存在一个非负函数 f ( x , y ) f(x,y) f(x,y)使得对于任意的 x , y x,y x,y均满足:
F ( x , y ) = ∫ − ∞ y ∫ − ∞ x f ( u , v ) d u d v F(x,y) = \int_{-\infty}^y \int_{-\infty}^{x} f(u,v) dudv F(x,y)=yxf(u,v)dudv

  • 二维均匀分布

若二维连续型随机向量 ( X , Y ) (X,Y) (X,Y)在区域 D D D内服从二维均匀分布(其中区域 D D D的面积值为 A A A),则其概率密度函数为:
f ( x , y ) = { 1 A , ( x , y ) ∈ D 0 , o t h e r s f(x,y) = \left\{\begin{matrix} \frac{1}{A}, &(x,y)\in D \\ 0 ,&others \end{matrix}\right. f(x,y)={A1,0,(x,y)Dothers

  • 二维正态分布

若二维连续型随机向量 ( X , Y ) (X,Y) (X,Y)服从参数为 μ 1 , μ 2 , σ 1 > 0 , σ 2 > 0 , ∣ ρ ∣ < 1 \mu_1,\mu_2,\sigma_1>0,\sigma_2>0,|\rho|<1 μ1,μ2,σ1>0,σ2>0,ρ<1的二维正态分布 ( X , Y ) ∼ N ( μ 1 , μ 2 , σ 1 2 , σ 2 2 , ρ ) (X,Y)\sim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho) (X,Y)N(μ1,μ2,σ12,σ22,ρ),则其概率密度函数为:
f ( x , y ) = 1 2 π σ 1 σ 2 1 − ρ 2 e x p { − 1 2 ( 1 − ρ 2 ) [ ( x − μ 1 ) 2 σ 1 2 − 2 ρ ( x − μ 1 ) ( y − μ 2 ) σ 1 σ 2 + ( y − μ 2 ) 2 σ 2 2 ] } f(x,y) = \frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}} exp\{-\frac{1}{2(1-\rho^2)}\Big[\frac{(x-\mu_1)^2}{\sigma_1^2}-2\rho\frac{(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+\frac{(y-\mu_2)^2}{\sigma_2^2}\Big]\} f(x,y)=2πσ1σ21ρ2 1exp{2(1ρ2)1[σ12(xμ1)22ρσ1σ2(xμ1)(yμ2)+σ22(yμ2)2]}

随机变量的数字特征

1.数学期望

数学期望指的就是随机变量在不同概率下的取值的平均值。

离散型随机变量的数学期望为:
E ( X ) = ∑ i x i p i E(X) = \sum_i x_ip_i E(X)=ixipi
连续型随机变量的数学期望为:
E ( X = ∫ − ∞ + ∞ x f ( x ) d x E(X = \int_{-\infty}{+\infty} xf(x)dx E(X=+xf(x)dx

2.方差

方差用于描述随机变量取值相对于均值的离散程度,从一定程度上描述了随机变量的“不稳定性”。

X X X为随机变量,则其方差可表述为:
V a r ( X ) = E { [ X − E ( X ) ] 2 } Var(X) = E\{[X-E(X)]^2\} Var(X)=E{[XE(X)]2}
V a r ( X ) \sqrt{Var(X)} Var(X) 也被称为 X X X的标准差standard deviation或均方差root mean square

3.协方差

协方差用于描述两个随机变量之间的线性联系关系。

X , Y X,Y X,Y为两个随机变量,则其协方差可表述为:
C o v ( X , Y ) = E { [ X − E ( X ) ] [ Y − E ( Y ) ] } Cov(X,Y) = E\{[X-E(X)][Y-E(Y)]\} Cov(X,Y)=E{[XE(X)][YE(Y)]}

4.相关系数

如果采用协方差来描述两个随机变量之间的线性联系关系,常常会受限于随机变量本身的量纲,数学中常采用标准化的方法来去除量纲的影响,这也是相关系数引入的一个原因。

随机变量 X , Y X,Y X,Y的相关系数可以表述为:
ρ ( X , Y ) = C o v e ( X , Y ) V a r ( X ) V a r ( Y ) \rho(X,Y) = \frac{Cove(X,Y)}{\sqrt{Var(X)Var(Y)}} ρ(X,Y)=Var(X)Var(Y) Cove(X,Y)

极限定理

极限定理是概率论的基本定理之一,在概率论和数理统计的理论研究和实际应用中都具有重要的意义。在极限定理中,最重要的就是大数定理和中心极限定理。

1.大数定理

大数定理是判断随机变量的算数平均值是否向常数收敛的定律,是概率论和数理统计的基本定律之一。设 X 1 , X 2 , . . . , X k , . . . X_1,X_2,...,X_k,... X1,X2,...,Xk,...是随机变量序列且 E ( X k ) E(X_k) E(Xk)存在,令 Y n = 1 n ∑ k = 1 n X k Y_n=\frac{1}{n}\sum_{k=1}^{n}X_k Yn=n1k=1nXk,若对于任意给定的 ϵ > 0 \epsilon>0 ϵ>0,有:
lim ⁡ n → ∞ P { ∣ Y n − E ( Y n ) ∣ ≥ ϵ } = 0 \lim_{n\rightarrow\infty}P\{|Y_n-E(Y_n)|\geq \epsilon\} = 0 nlimP{YnE(Yn)ϵ}=0
则称随机变量序列 { X k } \{X_k\} {Xk}服从大数定律。

  • 伯努利大数定律

n A n_A nA n n n次独立重复试验中事件 A A A发生的次数, p p p是事件 A A A在每次试验中发生的概率,则对于任意的正数 ϵ > 0 \epsilon>0 ϵ>0,有:
lim ⁡ n → ∞ P { ∣ n A n − p ∣ < ϵ } = 1 \lim_{n\rightarrow \infty}P\{|\frac{n_A}{n}-p|<\epsilon\} = 1 nlimP{nnAp<ϵ}=1

伯努利大数定理从一定角度揭示了“频率稳定于概率”说法的实质。

  • 切比雪夫大数定律

设随机变量 X 1 , X 2 , . . . , X k , . . . X_1,X_2,...,X_k,... X1,X2,...,Xk,...相互独立,且具有相同的期望与方差,则对于任意的正数 ϵ > 0 \epsilon>0 ϵ>0,有:
lim ⁡ n → ∞ P { ∣ Y n − μ ∣ < ϵ } = 1 \lim_{n\rightarrow\infty}P\{|Y_n-\mu|<\epsilon\}=1 nlimP{Ynμ<ϵ}=1

  • 辛倾大数定律

设随机变量 X 1 , X 2 , . . . , X k , . . . X_1,X_2,...,X_k,... X1,X2,...,Xk,...相互独立,服从相同的分布,且其期望 E ( X k ) = μ E(X_k)=\mu E(Xk)=μ,则对于任意的正数 ϵ > 0 \epsilon>0 ϵ>0,有:
lim ⁡ n → ∞ P { ∣ Y n − μ ∣ < ϵ } = 1 \lim_{n\rightarrow\infty}P\{|Y_n-\mu|<\epsilon\} = 1 nlimP{Ynμ<ϵ}=1

2.切比雪夫不等式

揭示了大数定律背后的数学原理。

设随机变量 X X X具有期望 E ( X ) = μ E(X)=\mu E(X)=μ,方差 V a r ( X ) = σ 2 Var(X)= \sigma^2 Var(X)=σ2,则对于任意 ϵ > 0 \epsilon>0 ϵ>0,有:
P { ∣ X − μ ∣ ≥ ϵ } ≤ σ 2 ϵ 2 P\{|X-\mu|\geq \epsilon\} \leq \frac{\sigma^2}{\epsilon^2} P{Xμϵ}ϵ2σ2

3.中心极限定理

中心极限定理用于判断随机变量序列部分和的分布是否渐近于正态分布的一类定理。在自然界及生产、科学实践中,一些现象收到许多相互独立的随机因素的影响,如果每个因素的影响都很小,那么总的影响可以看作是服从正态分布,中心极限定理正是从数学上论证了这一现象。

凡是在一定条件下,断定随机变量序列 X 1 , X 2 , . . . , X k , . . . X_1,X_2,...,X_k,... X1,X2,...,Xk,...的部分和 Y n = ∑ k = 1 n X k Y_n=\sum_{k=1}^{n}X_k Yn=k=1nXk的极限分布为正态分布的定理,均称为中心极限定理。

  • 独立同分布的中心极限定理

设随机变量 X 1 , X 2 , . . . , X k , . . . X_1,X_2,...,X_k,... X1,X2,...,Xk,...相互独立,服从同一分部,并且具有期望和方差: E ( X k ) = μ , V a r ( X k ) = σ 2 > 0 , k = 1 , 2 , . . . , E(X_k)=\mu,Var(X_k)=\sigma^2>0,k=1,2,..., E(Xk)=μ,Var(Xk)=σ2>0,k=1,2,...,,则随机变量:
Y n = ∑ k = 1 n X k − n μ n σ Y_n = \frac{\sum_{k=1}^{n}X_k-n\mu}{\sqrt{n}\sigma} Yn=n σk=1nXknμ
的分布函数收敛至标准正态分布函数。从中心极限定理可知,当 n n n足够大时, Y n Y_n Yn近似服从标准正态分布 N ( 0 , 1 ) N(0,1) N(0,1)

4.拉普拉斯中心极限定理

设随机变量 X 1 , X 2 , . . . , X k , . . . X_1,X_2,...,X_k,... X1,X2,...,Xk,...相互独立,并且服从参数为 p p p的两点分布,则对于任意实数 x x x,有:
lim ⁡ n → ∞ P { ∑ i = 1 n X i − n p n p ( 1 − p ) ≤ x } = Φ ( x ) \lim_{n\rightarrow\infty}P\Big\{\frac{\sum_{i=1}^{n}X_i-np}{\sqrt{np(1-p)}}\leq x\Big\} = \Phi(x) nlimP{np(1p) i=1nXinpx}=Φ(x)
∑ i = 1 n X i \sum_{i=1}^{n}X_i i=1nXi服从二项分布 B ( n , p ) B(n,p) B(n,p),当 n n n足够大时, B ( n , p ) B(n,p) B(n,p)近似于正态分布,它是独立同分布的中心极限定理的特殊情况。

数理统计的基本概念

1.总体,个体和简单随机样本

在数理统计中,称研究对象的全体为总体,通常用一个随机变量表示总体,组成总体的每个基本单元叫做个体。从总体 X X X中随机抽取一部分个体 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn,称其为取自 X X X的容量为 n n n的样本。

若总体 X X X具有分布函数 F ( x ) F(x) F(x),则 ( X 1 , X 2 , . . . ) (X_1,X_2,...) (X1,X2,...)的概率联合分布为:
F ( X 1 , X 2 , . . . , X n ) = ∏ i = 1 n F ( x i ) F(X_1,X_2,...,X_n) = \prod_{i=1}^{n}F(x_i) F(X1,X2,...,Xn)=i=1nF(xi)
联合概率密度函数:
f ( X 1 , X 2 , . . . , X n ) = ∏ i = 1 n f ( x i ) f(X_1,X_2,...,X_n)=\prod_{i=1}^{n}f(x_i) f(X1,X2,...,Xn)=i=1nf(xi)

2.统计量与抽样分布

数理统计的任务是采集和处理带有随机影响的数据,或者说收集样本并对之进行加工,一次对所研究的问题做出一定的结论,这一过程被称为统计推断。在统计推断中,对样本进行加工整理,实际上就是根据样本计算出一些量,使得这些量能够将所研究问题的信息集中起来。这些根据样本计算出的量就是下面将要定义的统计量,因此统计量是样本的某中函数。

X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn是总体 X X X的一个简单随机样本, T ( X 1 , X 2 , . . . , X n ) T(X_1,X_2,...,X_n) T(X1,X2,...,Xn)为一个 n n n元连续函数,且 T T T中不含任何关于总体的未知函数,则称其为一个统计量,称统计量的分布为抽样分布。

3.常用的统计量

常用的统计量包括样本均值、样本方差、 k k k阶样本原点矩、 k k k阶样本中心矩和顺序统计量等。

4.常用的分布
  • 卡方分布

X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn是来自总体 N ( 0 , 1 ) N(0,1) N(0,1)的一个简单随机样本则称统计量:
Y = X 1 2 + X 2 2 + . . . + X n 2 Y=X_1^2+X_2^2+...+X_n^2 Y=X12+X22+...+Xn2
为服从自由度为 n n n X 2 X^2 X2分布。

  • t分布

X ∼ N ( 0 , 1 ) , Y ∼ X 2 ( n ) X\sim N(0,1),Y\sim X^2(n) XN(0,1),YX2(n),且 X , Y X,Y X,Y相互独立,则称随机变量:
T = X Y / n T=\frac{X}{\sqrt{Y/n}} T=Y/n X
为服从自由度为 n n n t t t分布。

  • F分布

X ∼ X 2 ( n ) , Y ∼ X 2 ( m ) X\sim X^2(n), Y\sim X^2(m) XX2(n),YX2(m),且 X X X Y Y Y相互独立,则称随机变量:
F = X / n Y / m F=\frac{X/n}{Y/m} F=Y/mX/n
为服从自由度为 ( n , m ) (n,m) (n,m) F F F分布。

Reference

[1] 统计建模与R语言

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值