概率论完整知识汇总(值得收藏)

概率论只不过是把常识用数学公式表达了出来。

——拉普拉斯







一、随机事件与概率



1.样本空间


一个随机试验,每一个可能出现的结果称为一个样本点,全体样本点组成的集合称为样本空间(Ω)

例:抛一枚均匀硬币2次,正反面结果样本空间Ω={正正、正反、反正、反反}



2.基本事件


只有一个样本点的事件称为基本事件



3.事件之间的运算关系


A ⊂ B \mathrm{A} \subset \mathrm{B} AB:事件A包含于事件B中

A = B \mathrm{A}=\mathrm{B} A=B:事件A与事件B相等

A ∪ B \mathrm{A} \cup \mathrm{B} AB:和事件,表示事件A、事件B至少有一个发生

A ∩ B \mathrm{A} \cap \mathrm{B} AB :积事件,表示事件A、事件B同时发生

A − B \mathrm{A}-\mathrm{B} AB:差事件,表示仅A发生B不发生

A ∩ B = ϕ A \cap B=\phi AB=ϕ:事件A、事件B同时发生的事件集合为空集,表示A、B为互斥事件,不会同时发生


因为事件 A ˉ ∩ A = ϕ , A ˉ ∪ B = Ω \bar{A} \cap \mathrm{A}=\phi, \bar{A} \cup \mathrm{B}=\Omega AˉA=ϕ,AˉB=Ω,故 A ˉ \bar{A} Aˉ A A A互为对立事件(两事件互斥且他们共同组成全体样本空间)



4.独立事件


P ( A B ) = P ( A ) ⋅ P ( B ) P(A B)=P(A) \cdot P(B) P(AB)=P(A)P(B),两事件发生的概率互不影响,此时 P ( A ∣ B ) = P ( A ) P(A \mid B)=P(A) P(AB)=P(A),事件 B B B的发生不影响 A A A的发生(反之亦然)

注意区别

  • 互斥事件:事件A、B不可能同时发生

  • 独立事件:事件A的发生对事件B的发生没有影响(A、B必定可以同时发生)



5.条件概率


B B B发生的条件下 A A A发生的概率:

P ( A ∣ B ) = P ( A ⋅ B ) P ( B ) P(A \mid B)=\frac{P(A \cdot B)}{P(B)} P(AB)=P(B)P(AB)

变换:

P ( A B ) = P ( A ∣ B ) ⋅ P ( B ) P(A B)=P(A \mid B) \cdot P(B) P(AB)=P(AB)P(B)

 应用条件概率公式的前提条件:A、B并非相互独立事件,事件B发生之后事件A发生的概率会受到影响,  P ( A ∣ B )  可能大于  P ( A )  也可能小于  P ( A )  。尚若  A , B  相互独立,则  P ( A B ) = P ( A ) ⋅ P ( B ) ,  因   为此时P  ( A ∣ B ) = P ( A )  。  \begin{array}{l} \text { 应用条件概率公式的前提条件:A、B并非相互独立事件,事件B发生之后事件A发生的概率会受到影响, }\\ \mathrm{P}(\mathrm{A} \mid \mathrm{B}) \text { 可能大于 } \mathrm{P}(\mathrm{A}) \text { 也可能小于 } \mathrm{P}(\mathrm{A}) \text { 。尚若 } \mathrm{A}, \mathrm{B} \text { 相互独立,则 } \mathrm{P}(\mathrm{AB})=\mathrm{P}(\mathrm{A}) \cdot \mathrm{P}(\mathrm{B}), \text { 因 }\\ \text { 为此时P }(\mathrm{A} \mid \mathrm{B})=\mathrm{P}(\mathrm{A}) \text { 。 } \end{array}  应用条件概率公式的前提条件:AB并非相互独立事件,事件B发生之后事件A发生的概率会受到影响P(AB) 可能大于 P(A) 也可能小于 P(A) 。尚若 A,B 相互独立,则 P(AB)=P(A)P(B),   为此时(AB)=P(A)  


推广到三事件:
P ( A B C ) = P ( C ∣ A B ) ⋅ P ( B ∣ A ) ⋅ P ( A ) P(A B C)=P(C \mid A B) \cdot P(B \mid A) \cdot P(A) P(ABC)=P(CAB)P(BA)P(A)


6.古典概型(古典概率模型)


满足:

1). 样本点总数有限

2). 每个基本事件可能性相同

此时:

P ( A ) = n A n P(A)=\frac{n_{A}}{n} P(A)=nnA


几何概型:相当于样本点总数无限的“古典概型”



7.全概率公式


如果一个样本空间 S S S B 1 , B 2 , B 3 , … … , B n B_{1}, B_{2}, B_{3}, \ldots \ldots, B_{n} B1,B2,B3,,Bn 这样的完备事件组划分,则:
P ( A ) = P ( A B 1 ) + P ( A B 2 ) + ⋯ + P ( A B n ) P(A)=P\left(A B_{1}\right)+P\left(A B_{2}\right)+\cdots+P\left(A B_{n}\right) P(A)=P(AB1)+P(AB2)++P(ABn)
= P ( A ∣ B 1 ) ⋅ P ( B 1 ) + P ( A ∣ B 2 ) ⋅ P ( B 2 ) + ⋯ + P ( A ∣ B n ) ⋅ P ( B n ) \quad=P\left(A \mid B_{1}\right) \cdot P\left(B_{1}\right)+P\left(A \mid B_{2}\right) \cdot P\left(B_{2}\right)+\cdots+P\left(A \mid B_{n}\right) \cdot P\left(B_{n}\right) =P(AB1)P(B1)+P(AB2)P(B2)++P(ABn)P(Bn)

但实际情况有时候需要逆推模型,比如已知甲、乙、丙工厂各自的生产总数和次品率,现在我们拿到某件商品是次品,我们想要推测它更可能是哪个工厂生产的,这就要用到下面的贝叶斯公式



8.贝叶斯公式(逆概率公式)


起源:

在托马斯·贝叶斯提出该公式之前,人们只能够计算“正向概率”,比如已知袋中黑白球比例,假设随机摸一个球出来,计算它是黑球或白球的概率。但现实情况往往是相反的,因为现实世界是不确定的,我们一般只能观测到事物的表面现象,往往是“不知道袋子里黑白球的比例”,而要根据“摸出来的球的观测颜色”来推断“袋子里球”的情况,这个时候,我们就要根据观测数据Data,提出多个假设hypothesis,然后分别计算每个假设的可能性P(h|D),最后取可能性最大的那个假设即可,这就是贝叶斯定理的核心思想。后来,贝叶斯方法席卷了概率论,并将应用延伸到各个问题领域,所有需要作出概率预测的地方都可以见到贝叶斯方法的影子,特别地,贝叶斯是机器学习的核心方法之一。


贝叶斯公式:
P ( B i ∣ A ) = P ( B i A ) P ( A ) = P ( A ∣ B i ) ⋅ P ( B i ) ∑ j = 1 n P ( A ∣ B j ) ⋅ P ( B j ) P(B i \mid A)=\frac{P(B i A)}{P(A)}=\frac{P(A \mid B i) \cdot P(B i)}{\sum_{j=1}^{n} P\left(A \mid B_{j}\right) \cdot P(B j)} P(BiA)=P(A)P(BiA)=j=1nP(ABj)P(Bj)P(ABi)P(Bi)
便于理解的形式:
P ( h ∣ D ) = P ( D ∣ h ) ⋅ P ( h ) P ( D ) \quad P(h \mid D)=\frac{P(D \mid h) \cdot P(h)}{P(D)} P(hD)=P(D)P(Dh)P(h)
(h代表
hypothesis,即假设;D代表Data,即观测数据)

P(h|D):h的后验概率

P(D):D的先验概率

P(h):h的先验概率

P(D|h):D的似然性(h发生时D发生的可能性)


应用:

贝叶斯定理应用广泛,这里举一个“拼写纠正”的例子。

假如用户打字输入过程中手误打错了一个单词,打错之后是“tkp”,那么原本的单词可能是“top”、“tip”、“tap”等等,现在计算机输入法如何推断出更可能是哪一个呢?一个很容易想到的办法是分别计算出原单词是这些单词的情况下每个打错为tkp的概率(似然性),也就是P(打错为tkp|原单词为tip)、P(打错为tkp|原单词为tap)……全部计算出来之后比较大小即可得出结论,至于计算的方法,可以计算“编辑距离”,即根据字母之间在键盘上的位置距离来判断打错的概率。好了,似乎到这里问题就解决了,是这样吗?NO!上面的思路虽然没问题,但是计算方法是不够严谨的,因为我们只计算了似然性,而没有考虑先验概率(试想一下,如果某个单词通过上述计算得到的概率稍大,但该单词的词频非常低,是个罕见单词,几乎没人会使用,那这个结果靠谱吗)比如我们最后计算出来最可能有两个单词:“top”和“tip”,它们的似然性完全相同,那么我们要怎么比较呢?这个时候贝叶斯定理就要发挥作用了,我们需分别计算出tip和top先验概率:P(原单词为tip)和P(原单词为top),也就是它们在全单词库中分别的词频,作为权值乘以之前计算出的似然性,得出的结果才是严谨的,这也正是贝叶斯公式的计算方法(这里我们之所以不考虑贝叶斯公式分母"P(观测到的结果)"的值,是因为上述都是在相同的观测结果“打错为tkp”下进行比较,故概率相同)



9.贝努里概型


在一个试验中,如果只关心事件A发生与否,称这个试验为贝努力试验;如果把贝努力试验独立重复做n次,则称为n重贝努力试验,此时主要研究A恰好发生k次的概率。

二项概率公式:
P n ( k ) = C n k p k ( 1 − p ) n − k , k = 0 , 1 , ⋯   , n ( ∑ k = 0 n p n ( k ) = [ p + ( 1 − p ) ] n = 1 ) \begin{array}{l} P_{n}(k)=C_{n}^{k} p^{k(1-p)^{n-k}}, k=0, \quad 1, \cdots, n \\ \left(\sum_{k=0}^{n} p_{n}(k)=[p+(1-p)]^{n}=1\right) \end{array} Pn(k)=Cnkpk(1p)nk,k=0,1,,n(k=0npn(k)=[p+(1p)]n=1)
p:A发生的概率P(A)




二、离散型随机变量及其分布



1.概率函数(概率质量函数)


Ω x = { a 1 , a 2 , a 3 , ⋯   , a n , ⋯   } \Omega_{x}=\left\{a_{1}, a_{2}, a_{3}, \cdots, a_{n}, \cdots\right\} Ωx={a1,a2,a3,,an,} P ( x = a i ) = p i P\left(x=a_{i}\right)=p_{i} P(x=ai)=pi
其中 p i p_{i} pi 满足:

(1). p i ⩾ 0 ( i = 1 , 2 , ⋯   ) \quad p_{i} \geqslant 0 \quad(i=1,2, \cdots) pi0(i=1,2,)

(2). ∑ i = 1 ∞ p i = 1 \quad \sum_{i=1}^{\infty} p_{i}=1 i=1pi=1

那么, 称 p ( x = a i ) = p i , i = 1 , 2 , ⋯ p\left(x=a_{i}\right)=p_i, i=1,2, \cdots p(x=ai)=pi,i=1,2, 为随机变量X的概率函数或概率质量函数。


联合概率函数(联合概率分布):

一个随机试验的样本空间 Ω \Omega Ω中每一个样本点是 ( X , Y ) (X, Y) (X,Y), 表示为 : : : P ( X = a i , Y = b j ) = P ( { X = a i } ∩ { Y = b j } ) = p i j P\left(X=a_{i}, Y=b_{j}\right)=P\left(\left\{X=a_{i}\right\} \cap\left\{Y=b_{j}\right\}\right)=p_{i j} P(X=ai,Y=bj)=P({X=ai}{Y=bj})=pij
, i = 1 , 2 , ⋯   , j = 1 , 2 , … , i=1,2, \cdots, j=1,2, \ldots ,i=1,2,,j=1,2,

p i j p_{i j} pij 满足:

(1). p i j ⩾ 0 p_{i j} \geqslant 0 pij0

(2). ∑ i ∑ j p i j = 1 \sum_{i} \sum_{j} p_{i j}=1 ijpij=1



2. 0-1分布


X ∼ B ( 1 , p ) : X X \sim B(1, p): X XB(1,p):X 服从参数为 p p p 的0-1分布

概率函数: P ( X = k ) = p k ⋅ ( 1 − p ) 1 − k , k = 0 , 1 P(X=k)=p^{k} \cdot(1-p)^{1-k}, k=0,1 P(X=k)=pk(1p)1k,k=0,1

k表示事件发生的状态(0或1),贝努利试验服从0-1分布,且0-1分布在大自然中很常见



3. 二项分布


X ∼ B ( n , p ) : X X \sim B(n, p): X XB(n,p):X 服从参数为 n , p n, p n,p 的二项分布

概率函数:

P ( X = k ) = C n k ⋅ p k ⋅ ( 1 − p ) n − k , k = 0 , 1 , 2 , … , n P(X=k)=C_{n}^{k} \cdot p^{k} \cdot(1-p)^{n-k}, k=0,1,2, \ldots, n P(X=k)=Cnkpk(1p)nk,k=0,1,2,,n

∑ k = 0 n C n k ⋅ p k ( 1 − p ) n − k = 1 \sum_{k=0}^{n} C_{n}^{k} \cdot p^{k}(1-p)^{n-k}=1 k=0nCnkpk(1p)nk=1

k表示将事件X重复n次,其中状态为1的次数。n重贝努利试验服从二项分布



4.超几何分布


假设N个产品中有M个次品,随机从中取n个产品,所含的次品数X的概率函数为:
P ( X = k ) = C M k ⋅ C N − M n − k C N n , k = 0 , 1 , 2 , ⋯   , min ⁡ { M , n } P(X=k)=\frac{C_{M}^{k} \cdot C_{N-M}^{n-k}}{C_{N}^{n}}, k=0,1,2, \cdots, \min \{M, n\} P(X=k)=CNnCMkCNMnk,k=0,1,2,,min{M,n}
这就是超几何分布。

N ⟶ ∞ \mathrm{N} \longrightarrow \infty N 时,超几何分布服从 p = M N p=\frac{M}{N} p=NM 的二项分布,即:当产品总数非 常大时有放回抽样和无放回抽样近似相同。



5.泊松分布


对于二项分布B(n, p), 当n很大时计算难度会巨增(比如 C 1000 50 × 0.0 2 50 × 0.9 8 950 ) \left.C_{1000}^{50} \times 0.02^{50} \times 0.98^{950}\right) C100050×0.0250×0.98950), 此时可以用 λ = n p \lambda=n p λ=np 的泊松分布来代替,计算结果近似相同。

X ∼ P ( λ ) : X X \sim P(\lambda): X XP(λ):X 服从参数为 λ \lambda λ 的泊松分布

概率函数: P ( X = k ) = λ k k ! ⋅ e − λ , k = 0 , 1 , 2 , ⋯   , λ = n p P(X=k)=\frac{\lambda^{k}}{k !} \cdot e^{-\lambda}, k=0,1,2, \cdots, \lambda=n p P(X=k)=k!λkeλ,k=0,1,2,,λ=np

泊松分布一般用来表示单位时间内随机事件发生的次数,比如汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数等等,参数λ是单位时间内随机事件的平均发生率。



6.几何分布


X 1 2 3 ⋯ ⋅ ⋅ k P p p ( 1 − p ) p ( 1 − p ) 2 ⋯ ⋯ p ( 1 − p ) k − 1 \begin{array}{|c|c|c|c|c|c|} \hline \mathrm{X} & 1 & 2 & 3 & \cdots \cdot \cdot & \mathrm{k} \\ \hline \mathbf{P} & \mathrm{p} & \mathrm{p}(1-\mathrm{p}) & \mathrm{p}(1-\mathrm{p})^{2} & \cdots \cdots & \mathrm{p}(1-\mathrm{p})^{\mathrm{k}-1} \\ \hline \end{array} XP1p2p(1p)3p(1p)2kp(1p)k1

应用举例:运动员连续射门,每次射中的概率都为p,到射中为止射门的总次数为k,计算概率P



7.均匀分布(离散型)


P ( X = a i ) = 1 n , X ∈ { a 1 , a 2 , ⋯   , a n } P\left(X=a_{i}\right)=\frac{1}{n}, X \in\left\{a_{1}, a_{2}, \cdots, a_{n}\right\} P(X=ai)=n1,X{a1,a2,,an}


8.边缘概率函数


对于联合分布 ( X , Y ) (X, Y) (X,Y)

P ( X = a i ) = ∑ j p i j = p i , i = 1 , 2 , … P\left(X=a_{i}\right)=\sum_{j} p_{i j}=p_{i}, i=1,2, \ldots P(X=ai)=jpij=pi,i=1,2,


具有可加性的分布:

1). 二项分布

X ∼ B ( n , p ) , Y ∼ B ( m , p ) X \sim B(n, p), \quad Y \sim B(m, p) XB(n,p),YB(m,p) 时:
X + Y ∼ B ( m + n , p ) X+Y \sim B(m+n, p) X+YB(m+n,p)

2). 泊松分布
X ∼ P ( λ 1 ) , Y ∼ P ( λ 2 ) X \sim P\left(\lambda_{1}\right), \quad Y \sim P\left(\lambda_{2}\right) XP(λ1),YP(λ2) 时:
X + Y ∼ P ( λ 1 + λ 2 ) X+Y \sim P\left(\lambda_{1}+\lambda_{2}\right) X+YP(λ1+λ2)

3). 正态分布 当 X ∼ N ( μ 1 , σ 1 2 ) , Y ∼ N ( μ 2 , σ 2 2 ) X \sim N\left(\mu_{1}, \quad \sigma_{1}^{2}\right), \quad Y \sim N\left(\mu 2, \sigma_{2}^{2}\right) XN(μ1,σ12),YN(μ2,σ22)
X + Y ∼ N ( μ 1 + μ 2 , σ 1 2 + σ 2 2 ) X+Y \sim N\left(\mu_{1}+\mu_{2}, \sigma_{1}^{2}+\sigma_{2}^{2}\right) X+YN(μ1+μ2,σ12+σ22)

4). 卡方分布
X ∼ X 2 ( m ) , Y ∼ X 2 ( n ) X \sim X^{2}(m), \quad Y \sim X^{2}(n) XX2(m),YX2(n) 时:
X + Y ∼ X 2 ( m + n ) X+Y \sim X^{2}(m+n) X+YX2(m+n)




三、连续型随机变量及其分布



在实际问题中,对于几何概型,我们通常不关注它取某个值的概率,而关心它落在某个区间的概率。


1.分布函数(累计分布函数)


定义: 对于随机变量 X ∈ ( − ∞ , + ∞ ) , F ( x ) = P ( X ⩽ x ) X \in(-\infty,+\infty), F(x)=P(X \leqslant x) X(,+),F(x)=P(Xx)

(该定义对随机变量类型不作约束)

推广: 对任意 − ∞ < a < b < + ∞ -\infty<a <b<+\infty <a<b<+, 总有 P ( a < x ≤ b ) = F ( b ) − F ( a ) P(a<x \leq b)=F(b)-F(a) P(a<xb)=F(b)F(a)


定理:对任意随机变量X,其分布函数在 x = x 0 x=x_0 x=x0 处连续的充分必要条件是: P ( x = x 0 ) = 0 P(x=x_0) = 0 P(x=x0)=0(因此离散型随机变量必然不连续)



2.概率密度函数


对于随机变量X的分布函数F(x),若存在 f ( x ) f(x) f(x) 使得 : F ( x ) = ∫ − ∞ x f ( t ) d t , x ∈ ( − ∞ , + ∞ ) F(x)=\int_{-\infty}^{x} f(t) d t, x \in(-\infty,+\infty) F(x)=xf(t)dt,x(,+)

那么 f ( x ) f(x) f(x) 称为随机变量X的概率密度函数


判断一个函数是否可以表示概率密度函数的两原则:

(1) . f ( x ) ≥ 0 , x ∈ ( − ∞ , + ∞ ) f(x) \geq 0, x \in(-\infty,+\infty) f(x)0,x(,+)

(2). ∫ − ∞ + ∞ f ( x ) d x = 1 \int_{-\infty}^{+\infty} f(x) d x=1 +f(x)dx=1



3.连续型随机变量的性质


1). 分布函数 F ( x ) F(x) F(x) 是连续函数,且在概率密度函数 f ( x ) f(x) f(x) 的连续点处,有 F ′ ( x ) = F^{\prime}(x)= F(x)= f ( x ) f(x) f(x)

2). 对任意常数 c ( − ∞ < c < + ∞ ) c(-\infty<c<+\infty) c(<c<+), 有 P ( X = c ) = 0 P(X=c)=0 P(X=c)=0

注意:0概率事件不一定是不可能事件。比如公交车的到站时间是一个连续型随机变量,其中“2点整到站”是单个点,根据上述性质,它的概率等于0,但它并不是不可能事件,只是概率无穷小。由于人类测量精度的制约(不管是时间精度、距离精度等等),让此类事件看似很可能发生,但其实如果人类测量精度能够达到小数点后无穷位,那么例如“公交车2点整到站”此类事件几乎是不可能发生的,概率无穷小,接近于0。这是因为对于连续型随机变量,样本空间是无穷大的,所以单点概率只能无穷小)

3). 对任意的a、 b \mathrm{b} b, 有:
P ( a < x ⩽ b ) = F ( b ) − F ( a ) = ∫ a b f ( x ) d x P(a<x \leqslant b)=F(b)-F(a)=\int_{a}^{b} f(x) d x P(a<xb)=F(b)F(a)=abf(x)dx

关于概率密度函数与概率的关系:
P ( x < x ⩽ x + Δ x ) = F ( x + Δ x ) − F ( x ) ≈ f ( x ) ⋅ Δ x P(x<x \leqslant x+\Delta x)=F(x+\Delta x)-F(x) \approx f(x) \cdot \Delta x P(x<xx+Δx)=F(x+Δx)F(x)f(x)Δx

其中当 Δ x \Delta x Δx 无穷小时,约等号变为等号。概率密度函数与概率的关系犹如一根粗细不均的线的线密度与质量的关系:线上每一点都有对应的线密度,线的质量同这个密度值成正比,如果要求某段长度的质量,必须对这段长度上每一点的密度进行积分,反之,每一点的密度表示该点处质量变化的慢(导数)。



4.均匀分布(连续型)


X ∼ R ( a , b ) : X X \sim R(a, b): X XR(a,b):X 服从区间 ( a , b ) (a, b) (a,b) 上的均匀分布


概率密度函数:

f ( x ) = { 0 , x ⩽ a c , a < x < b 0 , x ⩾ b f(x)=\left\{\begin{array}{ll} 0, & x \leqslant a \\ c & , a<x<b \\ 0 & , x \geqslant b \end{array}\right. f(x)=0,c0xa,a<x<b,xb

其中,根据 f ( x ) f(x) f(x) 在( − ∞ -\infty , + ∞ ) +\infty) +) 定积分 ( ( ( 面积 ) ) ) 为1可得: c = 1 b − a c=\frac{1}{b-a} c=ba1

图像:


分布函数:

F ( x ) = { 0 x < a x − a b − a a ≤ x < b 1 x ≥ b F(x)=\left\{\begin{array}{cc} 0 & x<a \\ \frac{x-a}{b-a} & a \leq x<b \\ 1 & x \geq b \end{array}\right. F(x)=0baxa1x<aax<bxb

图像:



5.指数分布


X ∼ E ( λ ) ( λ > 0 ) : X X \sim E(\lambda)(\lambda>0): X XE(λ)(λ>0):X 服从参数为 λ \lambda λ 的指数分布


概率密度函数:

f ( x ) = { λ e − λ x , x > 0 0 , x ⩽ 0 f(x)=\left\{\begin{array}{cl}\lambda e^{-\lambda x} & , x>0 \\ 0 & , x \leqslant 0\end{array}\right. f(x)={λeλx0,x>0,x0

图像:


分布函数:
f ( x ) = { λ e − λ x , x > 0 0 , x ⩽ 0 f(x)=\left\{\begin{array}{cl} \lambda e^{-\lambda x} & , x>0 \\ 0 & , x \leqslant 0 \end{array}\right. f(x)={λeλx0,x>0,x0
图像:


指数分布一般用来表示独立随机事件发生的时间间隔,比如乘客进入汽车站的时间间隔、自然灾害发生的时间间隔、机器的寿命(即正常机器到损坏的时间间隔,但这里只限于短时间内,因为长时间使用的机器有记忆性)。泊松过程中第k次事件和k+1次事件发生的时间间隔服从指数分布。


指数分布具有无记忆性, 即:

P ( T > s + t ∣ T > t ) = P ( T > s ) P(T>s+t \mid T>t)=P(T>s) P(T>s+tT>t)=P(T>s) for all s , t ≥ 0 s, t \geq 0 s,t0

泊松分布、几何分布也具有无记忆性,比如几何分布可以用来解释“奢徒心 理":连输10把的情况下, 奢徒认为第11把贏的概率会很大, 但事实是, 如 果用 X X X 表示第几把会贏,那么 P ( X = 11 ∣ X > 10 ) = P ( X = 1 ) P(X=11 \mid X>10)=P(X=1) P(X=11X>10)=P(X=1)



6.正态分布


世间万物最主要服从的分布是正态分布


X ∼ N ( μ , σ 2 ) : X X \sim N\left(\mu, \sigma^{2}\right): X XN(μ,σ2):X 服从均值为 μ \mu μ, 方差为 σ 2 \sigma^{2} σ2 的正态分布

概率密度函数:
f ( x ) = 1 σ 2 π e − ( x − μ ) 2 2 σ 2 f(x)=\frac{1}{\sigma \sqrt{2 \pi}} e^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}} f(x)=σ2π 1e2σ2(xμ)2


分布函数的表达式一般不常用,图像是:

特征:

1). x = μ x=\mu x=μ 时, 有 f ( x ) max ⁡ = 1 σ 2 π f(x)_{\max }=\frac{1}{\sigma \sqrt{2 \pi}} f(x)max=σ2π 1

2). μ \mu μ 决定图像的左右位置, σ 2 \sigma^{2} σ2 决定图像的高矮。方差 σ 2 \sigma^{2} σ2 越大,分布越离 散,曲线越平坦; 方差 σ 2 \sigma^{2} σ2 越小,分布越集中,曲线越陡肖。


标准正态分布:

μ = 0 , σ 2 = 1 \mu=0, \sigma^{2}=1 μ=0,σ2=1

概率密度函数: φ ( x ) = 1 2 π ⋅ e − x 2 2 \varphi(x)=\frac{1}{\sqrt{2 \pi}} \cdot e^{-\frac{x^{2}}{2}} φ(x)=2π 1e2x2

分布函数: ϕ ( x ) = ∫ − ∞ x φ ( t ) d t , − ∞ < x < + ∞ \phi(x)=\int_{-\infty}^{x} \varphi(t) d t,-\infty<x<+\infty ϕ(x)=xφ(t)dt,<x<+

用途:对于标准正态分布,已知 ϕ ( x ) \phi(x) ϕ(x) 时可以查阅标准正态分布函数表得出
x x x (反之亦可) 。即,如下图中,已知 p p p (概率),便可得出u p _{p} p (分位数) , 使满足: ϕ ( u p ) = ∫ − ∞ u p φ ( x ) d x = p ( X ⩽ u p ) = p \phi\left(u_{p}\right)=\int_{-\infty}^{u_{p}} \varphi(x) d x=p\left(X \leqslant u_{p}\right)=p ϕ(up)=upφ(x)dx=p(Xup)=p


正态分布和标准正态分布的计算转化:

已知 X ∼ N ( μ , σ 2 ) X \sim N\left(\mu, \sigma^{2}\right) XN(μ,σ2), 那么:

P ( X ⩽ a ) = ϕ ( a − μ σ ) P(X \leqslant a)=\phi\left(\frac{a-\mu}{\sigma}\right) P(Xa)=ϕ(σaμ), 即 P ( X > a ) = 1 − ϕ ( a − μ σ ) P(X>a)=1-\phi\left(\frac{a-\mu}{\sigma}\right) P(X>a)=1ϕ(σaμ)

因此: P ( a < X ⩽ b ) = ϕ ( b − μ σ ) − ϕ ( a − μ σ ) P(a<X \leqslant b)=\phi\left(\frac{b-\mu}{\sigma}\right)-\phi\left(\frac{a-\mu}{\sigma}\right) P(a<Xb)=ϕ(σbμ)ϕ(σaμ) ,可用来方便地求解非标准正态分布的概率计算问题



7.联合分布函数


对于二维随机变量 ( X , Y ) (X, Y) (X,Y) 的联合分布函数为 :
F ( x , y ) = P ( X ⩽ x , Y ⩽ y ) , − ∞ < x , y < + ∞ F(x, y)=P(X \leqslant x, Y \leqslant y),-\infty<x, y<+\infty F(x,y)=P(Xx,Yy),<x,y<+


计算方法:

如下图, F ( x , y ) = P ( ( X , Y ) ∈ D x y ) = ∫ − ∞ x ∫ − ∞ y f ( x , y ) d x d y F(x, y)=P((X, Y) \in D x y)=\int_{-\infty}^{x} \int_{-\infty}^{y} f(x, y) d x d y F(x,y)=P((X,Y)Dxy)=xyf(x,y)dxdy

性质:

1). 0 ⩽ F ( x , y ) ⩽ 1 0 \leqslant F(x, y) \leqslant 1 0F(x,y)1

2). F ( x , y ) F(x, y) F(x,y) 关于 x x x y y y 单调不减

3). F ( x , y ) F(x, y) F(x,y) 关于 x x x y y y 右连续

4). lim ⁡ x , y → − ∞ F ( x , y ) = 0 lim ⁡ x , y → + ∞ F ( x , y ) = 1 \lim _{x, y \rightarrow-\infty} F(x, y)=0 \quad \lim _{x, y \rightarrow+\infty} F(x, y)=1 limx,yF(x,y)=0limx,y+F(x,y)=1

5). ∀ x 1 < x 2 , y 1 < y 2 : \forall x_{1}<x_{2}, y_{1}<y_{2}: x1<x2,y1<y2:
P ( x 1 < X ⩽ x 2 , y 1 < Y ⩽ y 2 ) P\left(x_{1}<X \leqslant x_{2}, y_{1}<Y \leqslant y_{2}\right) P(x1<Xx2,y1<Yy2)
= F ( x 2 , y 2 ) − F ( x 1 , y 2 ) − F ( x 2 , y 1 ) + F ( x 1 , y 1 ) =F\left(x_{2}, y_{2}\right)-F\left(x_{1}, y_{2}\right)-F\left(x_{2}, y_{1}\right)+F\left(x_{1}, y_{1}\right) =F(x2,y2)F(x1,y2)F(x2,y1)+F(x1,y1)



8.联合概率密度函数


f ( x , y ) f(x, y) f(x,y) 满足:

1). f ( x , y ) ⩾ 0 f(x, y) \geqslant 0 f(x,y)0

2). F ( x , y ) = ∫ − ∞ x ∫ − ∞ y f ( u , v ) d u d v , − ∞ < x , y < + ∞ F(x, y)=\int_{-\infty}^{x} \int_{-\infty}^{y} f(u, v) d u d v,-\infty<x, y<+\infty F(x,y)=xyf(u,v)dudv,<x,y<+

3). ∫ − ∞ + ∞ ∫ − ∞ + ∞ f ( x , y ) d x d y = 1 \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} f(x, y) d x d y=1 ++f(x,y)dxdy=1

那么 f ( x , y ) f(x, y) f(x,y) 是二维随机变量 ( X , Y ) (X, Y) (X,Y) 的联合概率密度函数


性质:

1). F ( x , y ) F(x, y) F(x,y) 连续, 且在 f ( x , y ) f(x, y) f(x,y) 的连续点处有: ∂ 2 F ( x , y ) ∂ x ∂ y = f ( x , y ) \frac{\partial^{2} F(x, y)}{\partial x \partial y}=f(x, y) xy2F(x,y)=f(x,y)

2). 对于平面内任意一曲线L: P ( ( X , Y ) ∈ L ) = 0 P((X, Y) \in L)=0 P((X,Y)L)=0

3). 对于平面内任意一集合D:
P ( ( X , Y ) ∈ D ) = ∬ D f ( x , y ) d x d y P((X, Y) \in D)=\iint_{D} f(x, y) d x d y P((X,Y)D)=Df(x,y)dxdy




四、随机变量的数字特征



1.数学期望(均值)


数学期望(Expectation)是试验中每次可能的结果乘以其概率的总和,也就是是该随机变量输出值的加权平均。它的意义是,一个随机试验在同样的机会下重复多次,所有可能状态平均的结果,便基本上等同“期望值”所期望的数。大数定律规定,随着重复次数接近无穷大,结果数值的算术平均值一定收敛于期望值。


1). 对于离散型随机变量:
E ( X ) = ∑ i a i p i E(X)=\sum_{i} a_{i }p_{i} E(X)=iaipi
2). 对于连续型随机变量:
E ( X ) = ∫ − ∞ + ∞ x f ( x ) d x E(X)=\int_{-\infty}^{+\infty} x f(x) d x E(X)=+xf(x)dx
3). 常用分布的期望和方差

离散型:

  • X ∼ B ( 1 , p ) X \sim B(1,p) XB(1,p)(0—1分布 ): E ( X ) = p E(X)=p E(X)=p D ( X ) = p ( 1 − p ) D(X) = p(1-p) D(X)=p(1p)
  • X ∼ B ( n , p ) X \sim B(n, p) XB(n,p)(二项分布): E ( X ) = n p E(X)=np E(X)=np D ( X ) = n p ( 1 − p ) D(X) = np(1-p) D(X)=np(1p)
  • X ∼ P ( λ ) X \sim P(\lambda) XP(λ)(泊松分布): E ( X ) = λ E(X)=\lambda E(X)=λ D ( X ) = λ D(X) = \lambda D(X)=λ

连续型:

  • X ∼ R ( a , b ) X \sim R(a, b) XR(a,b)(均匀分布): E ( X ) = a + b 2 E(X)=\frac{a+b}{2} E(X)=2a+b D ( X ) = ( b − a ) 2 12 D(X) = \frac{(b-a)^2}{12} D(X)=12(ba)2

  • X ∼ E ( λ ) X \sim E(\lambda) XE(λ)(指数分布): E ( X ) = 1 λ E(X)=\frac{1}{\lambda} E(X)=λ1 D ( X ) = 1 λ 2 D(X) = \frac{1}{\lambda^2} D(X)=λ21

  • X ∼ N ( μ , σ 2 ) X \sim N\left(\mu, \sigma^{2}\right) XN(μ,σ2)(正态分布): E ( X ) = μ E(X)=\mu E(X)=μ D ( X ) = λ 2 D(X) = \lambda^2 D(X)=λ2


3). 二维随机变量的期望

(1). 对于离散型随机变量 ( X , Y ) (X,Y) (X,Y),已知 P ( X = a i , Y = b j ) = p i j i , j = 1 , 2 , . . . P\left(X=a_{i}, Y=b_j\right)=p_{i j} \quad i, j=1,2,... P(X=ai,Y=bj)=piji,j=1,2,...

Z = g ( X , Y ) Z=g(X,Y) Z=g(X,Y) X 、 Y X、Y XY的函数,则:

E ( Z ) = ∑ i , j g ( a i , b j ) ⋅ p i j E(Z)=\sum_{i,j} g\left(a_{i}, b_{j}\right) \cdot p_{ij} E(Z)=i,jg(ai,bj)pij

(2). 对于连续型随机变量 ( X , Y ) (X,Y) (X,Y),已知 f ( x , y ) f(x,y) f(x,y)为它的联合概率密度函数

Z = g ( X , Y ) Z=g(X,Y) Z=g(X,Y) X 、 Y X、Y XY的函数,则:

E ( Z ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ g ( x , y ) f ( x , y ) d x d y E(Z)=\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} g(x, y) f(x, y) d x d y E(Z)=++g(x,y)f(x,y)dxdy


4). 期望的性质

(1). 假设 k , l , c k,l,c k,l,c都是常数,则:

E ( k ⋅ X + l ⋅ Y + c ) = k ⋅ E ( X ) + l ⋅ E ( Y ) + c E(k \cdot X+l \cdot Y+c)=k \cdot E(X)+l \cdot E(Y)+c E(kX+lY+c)=kE(X)+lE(Y)+c

(2). 当 ( X , Y ) (X,Y) (X,Y)相互独立时:

E ( X Y ) = E ( X ) ⋅ E ( Y ) E(X Y)=E(X) \cdot E(Y) E(XY)=E(X)E(Y)



2.协方差和方差


协方差(Covariance)用于衡量两个随机变量的联合变化程度。如果变量X的较大值主要与另一个变量Y的较大值相对应,而两者的较小值也相对应,那么两个变量为正相关,协方差为正,反之协方差为负。也就是说协方差的正负符号反映两变量的相关性。而协方差的数值大小因取决于具体变量的大小。

定义和计算:

cov ⁡ ( X , Y ) = E { [ X − E ( X ) ] [ Y − E ( Y ) ] } = E ( X Y ) − E ( X ) E ( Y ) \operatorname{cov}(X, Y)=E\{[X-E(X)][Y-E(Y)]\}=E(X Y)-E(X)E(Y) cov(X,Y)=E{[XE(X)][YE(Y)]}=E(XY)E(X)E(Y)


方差(Deviation Var)用来描述一个随机变量的离散程度,是随机变量中每个值与随机变量平均值之差的平方的平均值,相当于两个相同随机变量之间的协方差。

定义和计算:

D ( X ) = cov ⁡ ( X , X ) = E { [ X − E ( X ) ] 2 } = E ( X 2 ) − E 2 ( X ) D(X)=\operatorname{cov}(X, X)=E\left\{[X-E(X)]^{2}\right\}=E\left(X^{2}\right)-E^{2}(X) D(X)=cov(X,X)=E{[XE(X)]2}=E(X2)E2(X)

协方差和方差的一些性质:(假设 a 、 b 、 c a、b、c abc为常数)

1). D ( a X ± b Y ) = a 2 D ( X ) + b 2 D ( Y ) ± 2 a b ⋅ cov ⁡ ( X , Y ) D(a X \pm b Y)=a^{2} D(X)+b^{2}D(Y) \pm 2 a b\cdot{\operatorname{cov}}(X, Y) D(aX±bY)=a2D(X)+b2D(Y)±2abcov(X,Y)

2). 当 X 、 Y X、Y XY相互独立时: cov ⁡ ( X , Y ) = 0 \operatorname{cov}(X, Y)=0 cov(X,Y)=0(反之不一定成立)

3). cov ⁡ ( X , c ) = 0 \operatorname{cov}(X, c)=0 cov(X,c)=0

4). cov ⁡ ( a X , b Y ) = a b ⋅ cov ⁡ ( X , Y ) \operatorname{cov}(aX, bY)=ab\cdot\operatorname{cov}(X, Y) cov(aX,bY)=abcov(X,Y)

5). cov ⁡ ( X 1 + X 2 , Y 1 + Y 2 ) = cov ⁡ ( X 1 , Y 1 ) + cov ⁡ ( X 1 , Y 2 ) + cov ⁡ ( X 2 , Y 1 ) + cov ⁡ ( X 2 , Y 2 ) \operatorname{cov}\left(X_{1}+X_{2}, Y_{1}+Y_{2}\right)=\operatorname{cov}\left(X_{1}, Y_{1}\right) + \operatorname{cov}\left(X_{1}, Y_{2}\right)+\operatorname{cov}\left(X_{2}, Y_{1}\right)+\operatorname{cov}\left(X_{2}, Y_{2}\right) cov(X1+X2,Y1+Y2)=cov(X1,Y1)+cov(X1,Y2)+cov(X2,Y1)+cov(X2,Y2)

6). D ( a X ± b Y ± c ) = a 2 D ( X ) + b 2 D ( Y ) ± 2 a b ⋅ cov ⁡ ( X , Y ) D(a X \pm b Y \pm c)=a^{2} D(X)+b^{2} D(Y) \pm 2 a b \cdot \operatorname{cov}(X, Y) D(aX±bY±c)=a2D(X)+b2D(Y)±2abcov(X,Y)



3.常用分布的期望和方差


离散型:

  • X ∼ B ( 1 , p ) X \sim B(1,p) XB(1,p)(0—1分布 ): E ( X ) = p E(X)=p E(X)=p D ( X ) = p ( 1 − p ) D(X) = p(1-p) D(X)=p(1p)
  • X ∼ B ( n , p ) X \sim B(n, p) XB(n,p)(二项分布): E ( X ) = n p E(X)=np E(X)=np D ( X ) = n p ( 1 − p ) D(X) = np(1-p) D(X)=np(1p)
  • X ∼ P ( λ ) X \sim P(\lambda) XP(λ)(泊松分布): E ( X ) = λ E(X)=\lambda E(X)=λ D ( X ) = λ D(X) = \lambda D(X)=λ

连续型:

  • X ∼ R ( a , b ) X \sim R(a, b) XR(a,b)(均匀分布): E ( X ) = a + b 2 E(X)=\frac{a+b}{2} E(X)=2a+b D ( X ) = ( b − a ) 2 12 D(X) = \frac{(b-a)^2}{12} D(X)=12(ba)2
  • X ∼ E ( λ ) X \sim E(\lambda) XE(λ)(指数分布): E ( X ) = 1 λ E(X)=\frac{1}{\lambda} E(X)=λ1 D ( X ) = 1 λ 2 D(X) = \frac{1}{\lambda^2} D(X)=λ21
  • X ∼ N ( μ , σ 2 ) X \sim N\left(\mu, \sigma^{2}\right) XN(μ,σ2)(正态分布): E ( X ) = μ E(X)=\mu E(X)=μ D ( X ) = λ 2 D(X) = \lambda^2 D(X)=λ2


4.皮尔森相关系数


皮尔森相关系数(Pearson product-moment correlation coefficient)用于度量两个变量X和Y之间的线性相关程度,其值介于-1与1之间。它的定义式:
ρ ( X , Y ) = cov ⁡ ( X , Y ) D ( X ) ⋅ D ( Y ) \rho(X, Y)=\frac{\operatorname{cov}(X, Y)}{\sqrt{D(X) \cdot D(Y)}} ρ(X,Y)=D(X)D(Y) cov(X,Y)
当它的值 ρ ( X , Y ) = ± 1 \rho(X,Y)=\pm 1 ρ(X,Y)=±1时,说明变量X、Y呈线性关系(1为正相关,-1为负相关),且线性相关程度随着 ∣ ρ ( X , Y ) ∣ |\rho(X,Y)| ρ(X,Y)减小而减小,当 ρ ( X , Y ) = 0 \rho(X,Y)=0 ρ(X,Y)=0时,X、Y线性无关,此时: E ( X Y ) = E ( X ) ⋅ E ( Y ) E(X Y)=E(X) \cdot E(Y) E(XY)=E(X)E(Y) D ( X Y ) = D ( X ) ± D ( Y ) D\left(X Y\right)=D(X) \pm D(Y) D(XY)=D(X)±D(Y)

皮尔森相关系数表示的意义意义如下图,这是几组(X, Y)的点集,以及各个点集中X和Y之间的相关系数。我们可以发现相关系数反映的是变量之间的线性关系和相关性的方向(第一排),而不是线性相关的斜率(中间),也不是各种非线性关系(第三排)。注意:中间的图中斜率为0,但相关系数是没有意义的,因为此时变量Y是0


性质:

(1). 若 X , Y X,Y X,Y满足 Y = a X + b Y=aX+b Y=aX+b,则 ρ = a ∣ a ∣ \rho=\frac{a}{|a|} ρ=aa

(2). ∣ ρ ( X , Y ) ∣ ≤ 1 |\rho(X,Y)|\le1 ρ(X,Y)1

(3). ∣ ρ ( X , Y ) ∣ = 1 |\rho(X,Y)|=1 ρ(X,Y)=1的充要条件是:存在不为0的常数 a 、 b a、b ab使得 P ( Y = a X + b ) = 1 P(Y=aX+b)=1 P(Y=aX+b)=1

(4). 当 X 、 Y X、Y XY相互独立时, X 、 Y X、Y XY必定不相关,此时 ρ ( X , Y ) = 0 \rho(X, Y)=0 ρ(X,Y)=0。反之不成立,但它的逆否命题成立:当 X 、 Y X、Y XY相关时, X 、 Y X、Y XY一定不独立, ρ ( X , Y ) ≠ 0 \rho(X, Y)\ne0 ρ(X,Y)=0




五、大数定理和中心极限定理



1. 依概率收敛


X 1 , ⋯   , X n , ⋯ X_{1}, \cdots, X_{n}, \cdots X1,,Xn, 是随机变量序列, 如果存在 一个常数 c c c, 使得对任意一个 ε > 0 \varepsilon>0 ε>0, 总有
lim ⁡ n → ∞ P ( ∣ X n − c ∣ < ε ) = 1 \lim _{n \rightarrow \infty} P\left(\left|X_{n}-c\right|<\varepsilon\right)=1 nlimP(Xnc<ε)=1
那么称序列 { X n ∣ n = 1 , 2 , 3 , ⋯   } \left\{X_{n} \mid n=1,2,3, \cdots\right\} {Xnn=1,2,3,} 依概率收敘于 c c c, 记作
X n ⟶ P c X_{n} \stackrel{P}{\longrightarrow} c XnPc
或等价地
lim ⁡ n → ∞ P ( ∣ X n − c ∣ ≥ ε ) = 0. \lim _{n \rightarrow \infty} P\left(\left|X_{n}-c\right| \geq \varepsilon\right)=0 . nlimP(Xncε)=0.


2.独立同分布下的大数定律


大数定律是用来描述独立同分布下趋近无穷多次数重复实验的结果的定律。大数定律指出,在试验条件不变时,重复试验多次,随机事件的频率就近似于它的概率,也即偶然中包含着某种必然。根据大数定律,当样本数量趋于无穷大,其算术平均值就会无限接近期望值。


X 1 , ⋯   , X n , ⋯ X_{1}, \cdots, X_{n}, \cdots X1,,Xn, 是独立同分布的随机变量序列, 并且 E ( X 1 ) = μ , D ( X 1 ) = σ 2 E\left(X_{1}\right)=\mu, D\left(X_{1}\right)=\sigma^{2} E(X1)=μ,D(X1)=σ2, 则
X ˉ ≜ 1 n ∑ i = 1 n X i ⟶ P μ \bar{X} \triangleq \frac{1}{n} \sum_{i=1}^{n} X_{i} \stackrel{P}{\longrightarrow} \mu Xˉn1i=1nXiPμ
因为 E ( X ˉ ) = μ E(\bar{X})=\mu E(Xˉ)=μ, 所以上式也可写成
X ˉ ⟶ P E ( X ˉ ) \bar{X} \stackrel{P}{\longrightarrow} E(\bar{X}) XˉPE(Xˉ)
也即
lim ⁡ n → ∞ P ( ∣ X ˉ − μ ∣ ≥ ε ) = 0 \lim _{n\rightarrow \infty} P(|\bar{X}-\mu| \geq \varepsilon)=0 nlimP(Xˉμε)=0

3.独立同分布下的中心极限定理


大数定律揭示了大量随机变量的平均结果,但没有涉及到随机变量的分布的问题。而中心极限定理则指:在一定条件下,大量独立随机变量的均值经适当标准化后依分布收敛于正态分布。

中心极限定理是概率论中最著名的结果之一。它提出大量的独立随机变量之和具有近似于正态的分布。因此,它不仅提供了计算独立随机变量之和的近似概率的简单方法,而且有助于解释为什么有很多自然群体的经验频率呈现出钟形(即正态)曲线这一事实,因此中心极限定理这个结论使正态分布在数理统计中具有很重要的地位,也使正态分布有了广泛的应用。


设独立同分布的随机变量序列 X 1 , X 2 , ⋯   , X n , ⋯ X_{1}, X_{2}, \cdots, X_{n}, \cdots X1,X2,,Xn,, 且 E ( X i ) = μ , D ( X i ) = σ 2 ≠ 0 E\left(X_{i}\right)=\mu, D\left(X_{i}\right)=\sigma^{2} \neq 0 E(Xi)=μ,D(Xi)=σ2=0, 则对任意的实数
x ∈ ( − ∞ , + ∞ ) x \in(-\infty,+\infty) x(,+), 总有
lim ⁡ n → ∞ P ( ∑ i = 1 n X i − n μ n σ 2 ≤ x ) = Φ ( x ) \lim _{n \rightarrow \infty} P\left(\frac{\sum_{i=1}^{n} X_{i}-n \mu}{\sqrt{n \sigma^{2}}} \leq x\right)=\Phi(x) nlimP(nσ2 i=1nXinμx)=Φ(x)
注意

(1). 为了便于理解,上式可以看作: P ( x ⩽ a ) ≈ ϕ ( a ) P(x \leqslant a) \approx \phi(a) P(xa)ϕ(a),也即把上式中 x x x看作常数,真正的变量为括号中左半部分。

(2). 实际问题计算中不需要 n → ∞ n \rightarrow \infty n n n n取任意较大的数即可。


性质

(1). 假设有:
Y = ∑ i = 1 n X i − n μ n σ 2 Y=\frac{\sum_{i=1}^{n} X_{i}-n \mu}{\sqrt{n \sigma^{2}}} Y=nσ2 i=1nXinμ
那么:
Y ⟶ n → ∞ N ( 0 , 1 ) Y \stackrel{n \rightarrow \infty}{\longrightarrow} N(0,1) YnN(0,1)
(2). 假设有:
Z = ∑ i = 1 n X i Z=\sum_{i=1}^{n} X_{i} Z=i=1nXi
那么:
Z ⟶ n → ∞ N ( n μ , n σ 2 ) Z \stackrel{n \rightarrow \infty}{\longrightarrow} N\left(n \mu, n \sigma^{2}\right) ZnN(nμ,nσ2)
所以, (1)式也可以写成:
Y = Z − E ( Z ) D ( Z ) ⟶ n → ∞ N ( 0 , 1 ) . Y=\frac{Z-E(Z)}{\sqrt{D(Z)}} \stackrel{n \rightarrow \infty}{\longrightarrow} N(0,1) . Y=D(Z) ZE(Z)nN(0,1).

  • 10
    点赞
  • 73
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

进击的西西弗斯

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值