概率论与随机过程回顾
文章目录
1. 统计模型的相关概念
1.1 统计实验(不确定性)
我们认同不确定性的存在,是人类对自身无知的妥协 – 爱因斯坦
重复进行随机实验
1.2 样本点
是统计实验可能出现的所有结果
1.3 样本空间Ω
所有样本点的集合
1.4 概率
样本空间可以赋予的一些数值,是样本点在统计实验中出现的可能性的大小。
1.5.统计模型是先验的
所有这一切都是先验的,也就是在使用概率论工具之前,他们就是存在的
2. 概率和统计的差异
2.1 联系
共用了同一套符号,而对于处理思路,解决的问题等完全是风马牛不相及
2.2 差异
2.3.1 概率和统计问题的三要素
2.3.1.1 model-模型
统计模型:统计模型包括了1中的所有内容,模型包括的问题如
- 样本空间是什么
- 样本点的概率是什么
2.3.1.2 data-数据
数据是上帝造的,模型是人造的,二者有层级关系
从数据得出模型的过程就是统计
2.3.1.3 decision-决策
有了模型之后,可用模型来推断、预测、判别。
使用模型做出决策的过程,叫概率。
因此使用概率的时候,模型是已知的,因此是先验的
2.3.2 关系图
3. 样本空间的重要性
3.1 贝朗特悖论
样本空间选择的正确性对于概率统计来说是非常重要的,比如我们以bertrand paradox(贝特朗悖论)来进行说明
贝朗特悖论描述的是,给定了一个圆,里面有一个内接正三角形,在圆里面随机取一条弦,弦的长度比内接三角形变长长的概率是多少
3.1.1 解法一
如果我们固定一个端点去找另外一个端点
假设从A点出发去寻找另外一点端点,显然当另外一个端点在橙色标记圆弧段的时候成立,概率是
1 3 \frac{1}{3} 31
3.1.2 解法二
我们也可以固定弦中点去选,假设点A是弦的中点,当弦A在三角形内切圆内的时候,显然经过中点A的弦会比正三角形边长长,这个概率等于内切圆和外接圆的面积比,也就是
1
4
\frac{1}{4}
41
3.1.3 解法三
还是固定弦中点,这次比较的对象是半径,如果弦中点在半径的靠近圆心的一半,显然得到的弦长比三角形半径长。因此概率是
1 2 \frac{1}{2} 21
3.2 结论
上面的所有结果都是对的,因为选点的基础是不一样的。也就是样本空间的选取不同。因此所有的决策都是基于模型在研究问题,模型不同得到的决策不同是很正常的事情,因为概率本来就是在模型的基础上去做的决策。
4.概率相关的概念
4.1 随机变量
随机变量一点随机性都没有,是从样本空间映射到实数轴的一个确定性的函数。
随机变量起到了样本空间量化的作用,把样本空间变成数。因为只有把问题变成了数,才能用数学工具进行处理。比如硬币正面朝上*硬币反面朝上是没有意义的
4.2 分布
P(Z=x)的含义是,概率只能定义在样本空间的样本点上。
P ( Z = x ) = P ( w ∈ Ω ∣ Z ( w ) = x ) P(Z=x)=P({w\in\Omega|Z(w)=x}) P(Z=x)=P(w∈Ω∣Z(w)=x)
只有样本点在统计实验中是不确定的,从样本点之后的所有问题都不是随机的。
概率是模型的一部分,是一个先验结果。
概率的另外一个名字就是分布。分布对应的是随机变量,概率对应的是样本点,他们表达的都是同一个模型。不同的随机变量,不同的分布就代表了不同的统计实验和不同的可能性的大小。
4.3 连续与离散
如果随机变量是离散的,意味着样本空间是可数的。可数就是与自然数的真子集一一对应。
w 1 , w 2 , w 3.... {w1,w2,w3....} w1,w2,w3....
如果随机变量是连续的,意味着样本空间就是实数轴
集合只有两种状态,要么可数,要么连续。
4.4 概率密度
4.4.1 概率的累加性
概率的特性中,最重要的就是可加性。
概率最重要的特性就是可加性。不确定性是可以加起来的。
比如对于离散的情况,事件A发生的概率就是其子集Xk发生概率的求和
P ( A ) = ∑ x k ∈ A P ( Z = X k ) P(A)=\sum_{x_k\in A}P(Z=X_k) P(A)=xk∈A∑P(Z=Xk)
而对于连续的情况,实际上就是累加符号变成了积分符号
P ( A ) = ∫ A f Z ( x ) d x P(A) = \int_A f_Z(x)dx P(A)=∫AfZ(x)dx
其中这个f(x)函数可以与概率进行相关联,这个函数叫做概率密度。
4.4.2 概率与概率密度的区别
连续分布函数的概率密度与离散的样本点的概率并不是一回事。原因在于,如果是连续的随机变量,某一点概率的取值一定是0。
f z ( x ) = P ( Z = x ) = 0 f_{z}(x) \cancel{=} P(Z=x)=0 fz(x)= P(Z=x)=0
4.4.3 概率与概率密度的联系
概率密度与概率的关联在于,连续函数某一点的概率,近似等于某一点上一段的概率。这一段的概率,根据概率的定义,就是一个微积分。这个微积分又可以近似为f(x)*△x。一般来说,问题进行近似化研究会不严禁,但是离散和连续问题之间天然存在这样一个鸿沟。
P ( Z = x ) ≈ P ( x < Z < x + Δ x ) = ∫ x x + Δ x f z ( s ) d s ≈ f z ( x ) ∗ Δ x P(Z=x) \approx P(x<Z<x+\Delta x) \\ = \int_x^{x+\Delta x} f_z(s)ds \\ \approx f_z(x)*\Delta x P(Z=x)≈P(x<Z<x+Δx)=∫xx+Δxfz(s)ds≈fz(x)∗Δx
密度和概率都是模型的一部分。
密度的原函数叫做分布函数
F Z ( x ) = ∫ f Z ( s ) d s F_Z(x) = \int f_Z(s)ds FZ(x)=∫fZ(s)ds
5.几种典型的分布
5.1 离散的分布
5.1.1 伯努利模型(两点分布) Bernoalli
Z ∼ { x 1 x 2 P 1 − P } ( 0 ≤ P ≤ 1 ) Z \sim\begin{Bmatrix} x_1 & x_2 \\ P & 1-P \end{Bmatrix} \quad (0\leq P \leq 1) Z∼{x1Px21−P}(0≤P≤1)
5.1.2 射击模型(二项分布) Binormal
二项分布就是做了n次伯努利实验以后的分布
问题描述:一共打了n枪,每一枪的概率都是p,打中k枪的概率是多少
Z ∼ B ( n , p ) P ( Z = k ) = { n k } ∗ P k ∗ ( 1 − P ) n − k Z \sim B(n,p) \\ P(Z=k)=\begin{Bmatrix} n \\ k \end{Bmatrix}*P^k*(1-P)^{n-k} Z∼B(n,p)P(Z=k)={nk}∗Pk∗(1−P)n−k
5.1.3 泊松分布 Poisson
5.1.3.1 泊松分布与二项分布的关系
P ( Z = k ) = λ k k ! e x p ( − λ ) k = 0 , 1 , 2... P(Z=k)= \frac{\lambda^k}{k!}exp(-\lambda) \quad\quad k=0,1,2... P(Z=k)=k!λkexp(−λ)k=0,1,2...
泊松分布其实与二项分布是一脉相承的。
我们让二项分布的P趋近于0,也就是射中率接近0,为了补偿,让实验次数n趋近于无穷大。同时让np是个常数
P ( Z = k ) = { n k } ∗ P k ∗ ( 1 − P ) n − k P → 0 , n → ∞ , n ∗ P = λ P(Z=k)=\begin{Bmatrix} n \\ k \end{Bmatrix}*P^k*(1-P)^{n-k} \quad\quad P\rightarrow 0,n\rightarrow \infty,n*P = \lambda P(Z=k)={nk}∗Pk∗(1−P)n−kP→0,n→∞,n∗P=λ
5.1.3.2 公式推导
先把公式拆分为四个部分
{
n
k
}
∗
P
k
∗
(
1
−
P
)
n
−
k
=
n
!
k
!
∗
(
n
−
k
)
!
∗
(
λ
n
)
k
∗
(
1
−
λ
n
)
n
−
k
=
(
λ
k
k
!
)
∗
(
n
∗
(
n
−
1
)
∗
.
.
.
∗
(
n
−
k
+
1
)
n
k
)
∗
(
1
−
λ
n
)
−
k
∗
(
1
−
λ
n
)
n
\begin{Bmatrix} n \\ k \end{Bmatrix}*P^k*(1-P)^{n-k} \\ = \frac{n!}{k!*(n-k)!}*(\frac{\lambda}{n})^k*(1-\frac{\lambda}{n})^{n-k} \\ = (\frac{\lambda^k}{k!})*(\frac{n*(n-1)*...*(n-k+1)}{n^k})*(1-\frac{\lambda}{n})^{-k}*(1-\frac{\lambda}{n})^n
{nk}∗Pk∗(1−P)n−k=k!∗(n−k)!n!∗(nλ)k∗(1−nλ)n−k=(k!λk)∗(nkn∗(n−1)∗...∗(n−k+1))∗(1−nλ)−k∗(1−nλ)n
第一项保留
对于第二项,上面最高项是nk,下面的最高项也是nk,因此第二项极限是1
第三项中,n是无穷大,λ和k是常数,因此其极限值也是1
第四项用等价无穷小
lim n → ∞ ( 1 − λ n ) n = e n ∗ l n ( 1 − λ n ) = e n ∗ ( − λ n ) = e − λ \lim_{n\rightarrow \infty}(1-\frac{\lambda}{n})^n \\ = e^{n*ln(1-\frac{\lambda}{n})} \\ = e^{n*(-\frac{\lambda}{n})} = e^{-\lambda} n→∞lim(1−nλ)n=en∗ln(1−nλ)=en∗(−nλ)=e−λ
最后就得到了泊松分布
( λ k k ! ) ∗ ( n ∗ ( n − 1 ) ∗ . . . ∗ ( n − k + 1 ) n k ) ∗ ( 1 − λ n ) − k ∗ ( 1 − λ n ) n = λ k k ! e x p ( − λ ) (\frac{\lambda^k}{k!})*(\frac{n*(n-1)*...*(n-k+1)}{n^k})*(1-\frac{\lambda}{n})^{-k}*(1-\frac{\lambda}{n})^n = \frac{\lambda^k}{k!}exp(-\lambda) (k!λk)∗(nkn∗(n−1)∗...∗(n−k+1))∗(1−nλ)−k∗(1−nλ)n=k!λkexp(−λ)
5.1.3.3 泊松分布的价值
泊松分布是小概率事件的近似计算,是稀有事件的概率的统计模型
5.2 连续的分布
5.2.1 均匀分布 Uniform
如果在[a,b]区间分布是均匀的,那么在这个区间任意一点的概率都是相同的
分布函数如下
Z ∼ U ( a , b ) f z ( x ) = 1 b − a ∗ I [ a , b ] ( x ) Z \sim U(a,b) f_z(x) = \frac{1}{b-a}*I_{[a,b]}(x) Z∼U(a,b)fz(x)=b−a1∗I[a,b](x)
其中这个I[a,b](x)是在[a,b]区间取值的意思。数值在集合中就取1,不在集合中就取0,具体描述如下
I A ( x ) = { 1 x ∈ A 0 x ∉ A I_A(x) = \begin{cases} 1 & x \in A \\ 0 & x\notin A \end{cases} IA(x)={10x∈Ax∈/A
5.2.2 指数分布 Exponential
5.2.2.1 指数分布的数学表示
Z
∼
E
x
p
(
λ
)
f
z
(
x
)
=
λ
∗
e
x
p
(
−
λ
x
)
∗
I
[
0
,
k
]
(
x
)
Z \sim Exp(\lambda) \\ f_z(x) = \lambda*exp(-\lambda x)*I_{[0,k]}(x)
Z∼Exp(λ)fz(x)=λ∗exp(−λx)∗I[0,k](x)
指数分布只在正半轴分布的
5.2.2.2 指数分布的意义
指数分布刻画的是一种等待,等待某个时刻的到来,或者等待某个人的到来
5.2.2.3 指数分布与几何分布 Geometric
连续分布的指数分布与离散分布的几何分布具有对应关系,这些先说一下什么是几何分布。几何分布与二项分布是非常相似的,但是并不是研究打中几枪的概率,而是从打枪开始,到第一次打中,需要几枪
P ( Z = k ) = P ( 1 − P ) K − 1 P(Z=k) = P(1-P)^{K-1} P(Z=k)=P(1−P)K−1
几何分布意味着前面的(k-1)次都是没打中的
几何分布是指数分布是连续版本。为什么这么说呢,我们把几何分布变一下样子,发现几何分布也是个指数的样子,因此指数分布的意义其实就与几何分布近似,描述的是一个等待xx事情发生的事件
P ( Z = k ) = P ( 1 − P ) K − 1 = P 1 − P ∗ ( 1 − P ) k P(Z=k) = P(1-P)^{K-1} = \frac{P}{1-P}*(1-P)^k P(Z=k)=P(1−P)K−1=1−PP∗(1−P)k
5.2.2.4 指数分布的性质
指数分布的重要特性就是无记忆性(Memoryless)
P ( Z > x + y ∣ Z > x ) = P ( Z > y ) P(Z>x+y|Z>x) = P(Z>y) P(Z>x+y∣Z>x)=P(Z>y)
对这个性质的描述就是:分布已经大于一个值了,然后继续大于一个新值的概率,与过往条件没有关系
我们可以证明一下这个性质
P ( Z > x + y ∣ Z > x ) = P ( Z > x + y , Z > x ) P ( Z > x ) = P ( Z > x + y ) P ( Z > x ) = ∫ x + y ∞ λ e x p ( − λ s ) d s ∫ x ∞ λ e x p ( − λ s ) d s = e x p ( − λ ( x + y ) ) e x p ( − λ x ) = e x p ( − λ y ) = P ( Z > y ) P(Z>x+y|Z>x) = \frac{P(Z>x+y,Z>x)}{P(Z>x)} \\ \\ = \frac{P(Z>x+y)}{P(Z>x)} = \frac{\int_{x+y}^{\infty}\lambda exp(-\lambda s)ds}{\int_{x}^{\infty}\lambda exp(-\lambda s )ds} \\ \\ = \frac{exp(-\lambda(x+y))}{exp(-\lambda x)} = exp(-\lambda y) = P(Z>y) P(Z>x+y∣Z>x)=P(Z>x)P(Z>x+y,Z>x)=P(Z>x)P(Z>x+y)=∫x∞λexp(−λs)ds∫x+y∞λexp(−λs)ds=exp(−λx)exp(−λ(x+y))=exp(−λy)=P(Z>y)
5.2.2.5 指数分布的举例
比如人们常常用指数分布描述器件的寿命,一个灯泡已经使用了100个小时,然后这个灯泡能够使用到102小时的概率,和一个灯泡从0使用到2小时的概率是相同的
听起来非常怪异,事实上,器件的故障率与时间的关系服从澡盆模型,盆底这一部分完全符合无记忆性。
5.2.3 高斯分布 Gaussian
5.2.3.1 一维高斯分布数学表示
f Z ( x ) = 1 2 π ∗ σ ∗ e x p ( − ( x − u ) 2 2 σ 2 ) x ∈ R f_Z(x) = \frac{1}{\sqrt{2\pi}*\sigma}*exp(-\frac{(x-u)^2}{2 \sigma^2}) \quad\quad x\in R fZ(x)=2π∗σ1∗exp(−2σ2(x−u)2)x∈R
高斯分布是在实数轴分布的
5.2.3.2 一维高斯分布几何表示
高斯分布是一条钟形曲线。其形状是通过均值u和标准差σ来表征的。u代表的是中心的位置,σ代表的是图形胖瘦,σ小就瘦,σ大就胖。
高斯分布还有多维的
5.2.3.2 高斯分布与中心极限定理
如果Z1…Zn都是独立同分布的,并且进行了归一化(均值为0,方差为1),那么把他们加一起,除根号n,就会呈现高斯分布
Z 1 , Z 2 . . . . , Z n E ( Z k ) = 0 , V a r ( E k ) = 1 Z_1,Z_2....,Z_n \quad\quad E(Z_k)=0,Var(E_k)=1 Z1,Z2....,ZnE(Zk)=0,Var(Ek)=1
lim n → ∞ Z 1 + . . . + Z k n → N ( 0 , 1 ) \lim _{n \rightarrow \infty}\frac{Z_1+...+Z_k}{\sqrt n} \rightarrow N(0,1) n→∞limnZ1+...+Zk→N(0,1)
中心极限定理意味着即使数据分布不是正态的,从中抽取的样本均值的分布也是正态的
5.2.3.3 高斯分布的重要性
高斯分布的重要性在于其普适性,很多随机现象都是符合高斯分布的。就比如描述一组原子的运动,宏观参数可以选择温度进行描述,高斯就是随机变量的一种宏观描述。
6. 对随机变量的描述
6.1 随机变量的均值
6.1.1 均值的数学表示
一个随机变量的均值,是对随机变量所有可能取值进行加权求和
- 离散的表示
E ( Z ) = ∑ k X k ∗ P ( Z = X k ) E(Z) = \sum _k X_k *P(Z=X_k) E(Z)=k∑Xk∗P(Z=Xk)
- 连续的表示
E ( Z ) = ∫ R x ∗ f z ( x ) d x E(Z) = \int _R x *f_z(x)dx E(Z)=∫Rx∗fz(x)dx
6.1.2 均值的线性性质
6.1.2.1 数学表示
均值最重要的性质是线性性质
若干个随机变量的和的均值,等于若干个随机变量均值的和。这个性质普遍存在,与变量是否独立,是否相关没有关系。
E ( Z ) = E ( Z 1 + Z 2 + . . . + Z N ) = E ( Z 1 ) + . . . + E ( Z N ) E(Z) = E(Z_1+Z_2+...+Z_N) = E(Z_1)+...+E(Z_N) E(Z)=E(Z1+Z2+...+ZN)=E(Z1)+...+E(ZN)
6.1.2.1 线性性质的应用–匹配问题
下面举一个经典的例子来描述线性性质,也就是匹配问题。
其典型描述是:有n个人,有n顶帽子,他们摘下帽子参加活动,活动结束后,每一个人从桌子上随机抓起一顶帽子,有多少人戴对帽子了
假设Z是匹配上了的帽子数量,求z的分布其实是很麻烦的,因为前一个人选择的正确与否,会显著影响后面人的选择,但是求Z的均值是比较简单的。
这里我们要注意一个问题,复杂的均值一般不用定义求,因为如果对分布函数已经了解的很透彻了,其实就用不着均值了。就是因为分布函数太复杂,想简单点,才会引入均值
这里我们引入辅助变量Zk,如果一个人戴对了帽子就取1,戴错了帽子就取0。
Z k = { 1 帽 子 戴 对 了 0 帽 子 戴 错 了 k = 0 , 1 , 2... N Z_k = \begin{cases} 1 & 帽子戴对了 \\ 0 & 帽子戴错了 \end{cases} \quad\quad k = 0,1,2...N Zk={10帽子戴对了帽子戴错了k=0,1,2...N
这样就可以利用线性性质进行解耦了,不需要考虑前后之间的影响了。我们就可以把n个人戴对帽子的问题简化为单个人戴对帽子的问题。相当于戴对了帽子就对均值有贡献,戴错了就没有贡献
E ( Z ) = E ( Z 1 + Z 2 + . . . + Z N ) = E ( Z 1 ) + . . . + E ( Z N ) E(Z) = E(Z_1+Z_2+...+Z_N) = E(Z_1)+...+E(Z_N) E(Z)=E(Z1+Z2+...+ZN)=E(Z1)+...+E(ZN)
而不考虑其他人,只考虑一个人戴对了帽子的概率是
P ( Z k = 1 ) = ( N − 1 ) ! N ! = 1 N P ( Z k = 0 ) = 1 − 1 N P(Z_k=1) = \frac{(N-1)!}{N!} = \frac{1}{N} \\ P(Z_k=0) = 1- \frac{1}{N} P(Zk=1)=N!(N−1)!=N1P(Zk=0)=1−N1
这个时候可以计算均值了
E ( Z k ) = 1 ∗ P ( Z k = 1 ) + 0 ∗ P ( Z k = 0 ) = 1 N E(Z_k) = 1*P(Z_k=1)+0*P(Z_k=0) = \frac{1}{N} E(Zk)=1∗P(Zk=1)+0∗P(Zk=0)=N1
6.1.3 均值的物理含义
6.1.3.1 重心
均值的一种含义是重心。重心就是质量在空间的分布的均值。
∫ x ∗ m ( x ) d x ∫ x d x \frac{\int x*m(x)dx}{\int xdx} ∫xdx∫x∗m(x)dx
物理学上重心的定义做了归一化。但是概率上不用做。因为概率密度函数的积分本来就等于1
E ( Z ) = ∫ R x ∗ f z ( x ) d x ∫ R f z ( x ) d x = ∫ R x ∗ f z ( x ) d x 1 E(Z) = \frac{\int _R x *f_z(x)dx}{\int _R f_z(x)dx} = \frac{\int _R x *f_z(x)dx}{1} E(Z)=∫Rfz(x)dx∫Rx∗fz(x)dx=1∫Rx∗fz(x)dx
因此均值可以看做是概率分布的重心
6.1.3.2 距离
均值的另外一重含义是距离。
我们让一个数字去逼近随机变量,找到一个距离随机变量最近的数字。
这其实是让数字去逼近函数,为了描述这个数字,我们就得找到一个合适的距离去定量,我们选择均方距离
- 均方距离
E [ ( Z − Y ) 2 ] M e a n S q u a r e E[(Z-Y)^2] \quad\quad Mean \quad Square E[(Z−Y)2]MeanSquare
等价于求均方距离导数为0的点
Z
←
a
=
>
E
[
(
Z
−
a
)
2
]
=
>
m
i
n
E
(
Z
−
a
)
2
=
>
d
d
a
E
(
Z
−
a
)
2
=
0
Z \leftarrow a => E[(Z-a)^2] => min E(Z-a)^2 => \frac{d}{da}E(Z-a)^2=0
Z←a=>E[(Z−a)2]=>minE(Z−a)2=>dadE(Z−a)2=0
这里需要注意一下,期望是求积分,求导是求微分,积分微分交换顺序有条件,这里就不检查了,一般是满足的。
d d a E ( Z − a ) 2 = 0 E ( d d a ( Z − a ) 2 ) = 0 E ( Z − a ) = 0 a = E ( Z ) \frac{d}{da}E(Z-a)^2 = 0 \\ E(\frac{d}{da}(Z-a)^2) =0 \\ E(Z-a) = 0 \\ a = E(Z) dadE(Z−a)2=0E(dad(Z−a)2)=0E(Z−a)=0a=E(Z)
这个a就是均值。说明均值就是在均方距离下与随机变量最接近的数字。
均值相对于分布来说,简单太多,是对随机变量最好的代言。
6.2 方差
在6.1.3.2求最接近随机变量的数字的时候,我们注意到,其实方差就是与随机变量最近的距离
方差定义
V a r ( Z ) = E [ ( Z − E ( Z ) ) 2 ] Var(Z) =E[(Z- E(Z))^2] Var(Z)=E[(Z−E(Z))2]
6.3 方差、均值与分布的关系
从距离这个角度来看,方差和均值是可以完全融合在一起看的。均值是离随机变量最近的数字,方差就是离随机变量最近的距离。均值代表的是随机变量平均的位置,方差代表的是随机变量散开的情况
均值和方差相比分布,在描述概率的准确性上损失了很多,但是在复杂度上得到了很大的收益。