【现代信号处理】01 -概率论与随机过程回顾

最新推荐文章于 2022-09-27 10:32:18 发布

Ciaran-byte

最新推荐文章于 2022-09-27 10:32:18 发布

阅读量945

点赞数

分类专栏：数学基础文章标签：概率论机器学习人工智能

本文链接：https://blog.csdn.net/qq_41741344/article/details/119933471

版权

数学基础专栏收录该内容

46 篇文章 79 订阅

订阅专栏

概率论与随机过程回顾

文章目录

概率论与随机过程回顾

1. 统计模型的相关概念

1.1 统计实验(不确定性)

我们认同不确定性的存在，是人类对自身无知的妥协 – 爱因斯坦

重复进行随机实验

1.2 样本点

是统计实验可能出现的所有结果

1.3 样本空间Ω

所有样本点的集合

1.4 概率

样本空间可以赋予的一些数值，是样本点在统计实验中出现的可能性的大小。

1.5.统计模型是先验的

所有这一切都是先验的，也就是在使用概率论工具之前，他们就是存在的

2. 概率和统计的差异

2.1 联系

共用了同一套符号，而对于处理思路，解决的问题等完全是风马牛不相及

2.2 差异

2.3.1 概率和统计问题的三要素

2.3.1.1 model-模型

统计模型:统计模型包括了1中的所有内容，模型包括的问题如

样本空间是什么
样本点的概率是什么

2.3.1.2 data-数据

数据是上帝造的，模型是人造的，二者有层级关系

从数据得出模型的过程就是统计

2.3.1.3 decision-决策

有了模型之后，可用模型来推断、预测、判别。

使用模型做出决策的过程，叫概率。

因此使用概率的时候，模型是已知的，因此是先验的

2.3.2 关系图

在这里插入图片描述

3. 样本空间的重要性

3.1 贝朗特悖论

样本空间选择的正确性对于概率统计来说是非常重要的，比如我们以bertrand paradox(贝特朗悖论)来进行说明

贝朗特悖论描述的是，给定了一个圆，里面有一个内接正三角形，在圆里面随机取一条弦，弦的长度比内接三角形变长长的概率是多少

在这里插入图片描述

3.1.1 解法一

如果我们固定一个端点去找另外一个端点

在这里插入图片描述

假设从A点出发去寻找另外一点端点，显然当另外一个端点在橙色标记圆弧段的时候成立，概率是

$\frac{1}{3}$

3.1.2 解法二

我们也可以固定弦中点去选，假设点A是弦的中点，当弦A在三角形内切圆内的时候，显然经过中点A的弦会比正三角形边长长，这个概率等于内切圆和外接圆的面积比，也就是
$\frac{1}{4}$

在这里插入图片描述

3.1.3 解法三

在这里插入图片描述

还是固定弦中点，这次比较的对象是半径，如果弦中点在半径的靠近圆心的一半，显然得到的弦长比三角形半径长。因此概率是

$\frac{1}{2}$

3.2 结论

上面的所有结果都是对的，因为选点的基础是不一样的。也就是样本空间的选取不同。因此所有的决策都是基于模型在研究问题，模型不同得到的决策不同是很正常的事情，因为概率本来就是在模型的基础上去做的决策。

4.概率相关的概念

4.1 随机变量

随机变量一点随机性都没有，是从样本空间映射到实数轴的一个确定性的函数。

随机变量起到了样本空间量化的作用，把样本空间变成数。因为只有把问题变成了数，才能用数学工具进行处理。比如硬币正面朝上*硬币反面朝上是没有意义的

4.2 分布

P(Z=x)的含义是，概率只能定义在样本空间的样本点上。

$P(Z=x)=P({w\in\Omega|Z(w)=x})$

只有样本点在统计实验中是不确定的，从样本点之后的所有问题都不是随机的。

概率是模型的一部分，是一个先验结果。

概率的另外一个名字就是分布。分布对应的是随机变量，概率对应的是样本点，他们表达的都是同一个模型。不同的随机变量，不同的分布就代表了不同的统计实验和不同的可能性的大小。

4.3 连续与离散

如果随机变量是离散的，意味着样本空间是可数的。可数就是与自然数的真子集一一对应。

${w1,w2,w3....}$

如果随机变量是连续的，意味着样本空间就是实数轴

集合只有两种状态，要么可数，要么连续。

4.4 概率密度

4.4.1 概率的累加性

概率的特性中，最重要的就是可加性。

概率最重要的特性就是可加性。不确定性是可以加起来的。

比如对于离散的情况，事件A发生的概率就是其子集X_k发生概率的求和

$P(A)=\sum_{x_k\in A}P(Z=X_k)$

而对于连续的情况，实际上就是累加符号变成了积分符号

$\int_A f_Z(x)dx$

其中这个f(x)函数可以与概率进行相关联，这个函数叫做概率密度。

4.4.2 概率与概率密度的区别

连续分布函数的概率密度与离散的样本点的概率并不是一回事。原因在于，如果是连续的随机变量，某一点概率的取值一定是0。

$f_{z}(x) \cancel{=} P(Z=x)=0$

4.4.3 概率与概率密度的联系

概率密度与概率的关联在于，连续函数某一点的概率，近似等于某一点上一段的概率。这一段的概率，根据概率的定义，就是一个微积分。这个微积分又可以近似为f(x)*△x。一般来说，问题进行近似化研究会不严禁，但是离散和连续问题之间天然存在这样一个鸿沟。

$\approx P(x<Z<x+\Delta x) \\ = \int_x^{x+\Delta x} f_z(s)ds \\ \approx f_z(x)*\Delta x$

密度和概率都是模型的一部分。

密度的原函数叫做分布函数

$F_Z(x) = \int f_Z(s)ds$

5.几种典型的分布

5.1 离散的分布

5.1.1 伯努利模型(两点分布) Bernoalli

$\sim\begin{Bmatrix} x_1 & x_2 \\ P & 1-P \end{Bmatrix} \quad (0\leq P \leq 1)$

5.1.2 射击模型(二项分布) Binormal

二项分布就是做了n次伯努利实验以后的分布

问题描述：一共打了n枪，每一枪的概率都是p，打中k枪的概率是多少

$\sim B(n,p) \\ P(Z=k)=\begin{Bmatrix} n \\ k \end{Bmatrix}*P^k*(1-P)^{n-k}$

5.1.3 泊松分布 Poisson

5.1.3.1 泊松分布与二项分布的关系

$\frac{\lambda^k}{k!}exp(-\lambda) \quad\quad k=0,1,2...$

泊松分布其实与二项分布是一脉相承的。

我们让二项分布的P趋近于0，也就是射中率接近0，为了补偿，让实验次数n趋近于无穷大。同时让np是个常数

$P(Z=k)=\begin{Bmatrix} n \\ k \end{Bmatrix}*P^k*(1-P)^{n-k} \quad\quad P\rightarrow 0,n\rightarrow \infty,n*P = \lambda$

5.1.3.2 公式推导

先把公式拆分为四个部分
$\begin{Bmatrix} n \\ k \end{Bmatrix}*P^k*(1-P)^{n-k} \\ = \frac{n!}{k!*(n-k)!}*(\frac{\lambda}{n})^k*(1-\frac{\lambda}{n})^{n-k} \\ = (\frac{\lambda^k}{k!})*(\frac{n*(n-1)*...*(n-k+1)}{n^k})*(1-\frac{\lambda}{n})^{-k}*(1-\frac{\lambda}{n})^n$
第一项保留

对于第二项，上面最高项是n^k,下面的最高项也是n^k，因此第二项极限是1

第三项中，n是无穷大，λ和k是常数，因此其极限值也是1

第四项用等价无穷小

$\lim_{n\rightarrow \infty}(1-\frac{\lambda}{n})^n \\ = e^{n*ln(1-\frac{\lambda}{n})} \\ = e^{n*(-\frac{\lambda}{n})} = e^{-\lambda}$

最后就得到了泊松分布

$(\frac{\lambda^k}{k!})*(\frac{n*(n-1)*...*(n-k+1)}{n^k})*(1-\frac{\lambda}{n})^{-k}*(1-\frac{\lambda}{n})^n = \frac{\lambda^k}{k!}exp(-\lambda)$

5.1.3.3 泊松分布的价值

泊松分布是小概率事件的近似计算，是稀有事件的概率的统计模型

5.2 连续的分布

5.2.1 均匀分布 Uniform

如果在[a,b]区间分布是均匀的，那么在这个区间任意一点的概率都是相同的

分布函数如下

$\sim U(a,b) f_z(x) = \frac{1}{b-a}*I_{[a,b]}(x)$

其中这个I_[a,b](x)是在[a,b]区间取值的意思。数值在集合中就取1，不在集合中就取0，具体描述如下

$I_A(x) = \begin{cases} 1 & x \in A \\ 0 & x\notin A \end{cases}$

5.2.2 指数分布 Exponential

5.2.2.1 指数分布的数学表示

$\sim Exp(\lambda) \\ f_z(x) = \lambda*exp(-\lambda x)*I_{[0,k]}(x)$
指数分布只在正半轴分布的

5.2.2.2 指数分布的意义

指数分布刻画的是一种等待，等待某个时刻的到来，或者等待某个人的到来

5.2.2.3 指数分布与几何分布 Geometric

连续分布的指数分布与离散分布的几何分布具有对应关系，这些先说一下什么是几何分布。几何分布与二项分布是非常相似的，但是并不是研究打中几枪的概率，而是从打枪开始，到第一次打中，需要几枪

$P(Z=k) = P(1-P)^{K-1}$

几何分布意味着前面的(k-1)次都是没打中的

几何分布是指数分布是连续版本。为什么这么说呢，我们把几何分布变一下样子,发现几何分布也是个指数的样子，因此指数分布的意义其实就与几何分布近似，描述的是一个等待xx事情发生的事件

$P(1-P)^{K-1} = \frac{P}{1-P}*(1-P)^k$

5.2.2.4 指数分布的性质

指数分布的重要特性就是无记忆性(Memoryless)

$P (Z > x + y ∣ Z > x) = P (Z > y)$

对这个性质的描述就是：分布已经大于一个值了，然后继续大于一个新值的概率，与过往条件没有关系

我们可以证明一下这个性质

$\frac{P(Z>x+y,Z>x)}{P(Z>x)} \\ \\ = \frac{P(Z>x+y)}{P(Z>x)} = \frac{\int_{x+y}^{\infty}\lambda exp(-\lambda s)ds}{\int_{x}^{\infty}\lambda exp(-\lambda s )ds} \\ \\ = \frac{exp(-\lambda(x+y))}{exp(-\lambda x)} = exp(-\lambda y) = P(Z>y)$

5.2.2.5 指数分布的举例

比如人们常常用指数分布描述器件的寿命，一个灯泡已经使用了100个小时，然后这个灯泡能够使用到102小时的概率，和一个灯泡从0使用到2小时的概率是相同的

听起来非常怪异，事实上，器件的故障率与时间的关系服从澡盆模型，盆底这一部分完全符合无记忆性。

在这里插入图片描述

5.2.3 高斯分布 Gaussian

5.2.3.1 一维高斯分布数学表示

$f_Z(x) = \frac{1}{\sqrt{2\pi}*\sigma}*exp(-\frac{(x-u)^2}{2 \sigma^2}) \quad\quad x\in R$

高斯分布是在实数轴分布的

5.2.3.2 一维高斯分布几何表示

在这里插入图片描述

高斯分布是一条钟形曲线。其形状是通过均值u和标准差σ来表征的。u代表的是中心的位置，σ代表的是图形胖瘦，σ小就瘦，σ大就胖。

高斯分布还有多维的

5.2.3.2 高斯分布与中心极限定理

如果Z1…Zn都是独立同分布的，并且进行了归一化(均值为0，方差为1)，那么把他们加一起，除根号n，就会呈现高斯分布

$Z_1,Z_2....,Z_n \quad\quad E(Z_k)=0,Var(E_k)=1$

$\lim _{n \rightarrow \infty}\frac{Z_1+...+Z_k}{\sqrt n} \rightarrow N(0,1)$

中心极限定理意味着即使数据分布不是正态的，从中抽取的样本均值的分布也是正态的

5.2.3.3 高斯分布的重要性

高斯分布的重要性在于其普适性，很多随机现象都是符合高斯分布的。就比如描述一组原子的运动，宏观参数可以选择温度进行描述，高斯就是随机变量的一种宏观描述。

6. 对随机变量的描述

6.1 随机变量的均值

6.1.1 均值的数学表示

一个随机变量的均值，是对随机变量所有可能取值进行加权求和

离散的表示

$\sum _k X_k *P(Z=X_k)$

连续的表示

$\int _R x *f_z(x)dx$

6.1.2 均值的线性性质

6.1.2.1 数学表示

均值最重要的性质是线性性质

若干个随机变量的和的均值，等于若干个随机变量均值的和。这个性质普遍存在，与变量是否独立，是否相关没有关系。

$E(Z) = E(Z_1+Z_2+...+Z_N) = E(Z_1)+...+E(Z_N)$

6.1.2.1 线性性质的应用–匹配问题

下面举一个经典的例子来描述线性性质，也就是匹配问题。

其典型描述是:有n个人，有n顶帽子，他们摘下帽子参加活动，活动结束后，每一个人从桌子上随机抓起一顶帽子，有多少人戴对帽子了

假设Z是匹配上了的帽子数量，求z的分布其实是很麻烦的，因为前一个人选择的正确与否，会显著影响后面人的选择，但是求Z的均值是比较简单的。

这里我们要注意一个问题，复杂的均值一般不用定义求，因为如果对分布函数已经了解的很透彻了，其实就用不着均值了。就是因为分布函数太复杂，想简单点，才会引入均值

这里我们引入辅助变量Zk，如果一个人戴对了帽子就取1，戴错了帽子就取0。

$Z_k = \begin{cases} 1 & 帽子戴对了 \\ 0 & 帽子戴错了 \end{cases} \quad\quad k = 0,1,2...N$

这样就可以利用线性性质进行解耦了，不需要考虑前后之间的影响了。我们就可以把n个人戴对帽子的问题简化为单个人戴对帽子的问题。相当于戴对了帽子就对均值有贡献，戴错了就没有贡献

$E(Z) = E(Z_1+Z_2+...+Z_N) = E(Z_1)+...+E(Z_N)$

而不考虑其他人，只考虑一个人戴对了帽子的概率是

$P(Z_k=1) = \frac{(N-1)!}{N!} = \frac{1}{N} \\ P(Z_k=0) = 1- \frac{1}{N}$

这个时候可以计算均值了

$E(Z_k) = 1*P(Z_k=1)+0*P(Z_k=0) = \frac{1}{N}$

6.1.3 均值的物理含义

6.1.3.1 重心

均值的一种含义是重心。重心就是质量在空间的分布的均值。

$\frac{\int x*m(x)dx}{\int xdx}$

在这里插入图片描述

物理学上重心的定义做了归一化。但是概率上不用做。因为概率密度函数的积分本来就等于1

$\frac{\int _R x *f_z(x)dx}{\int _R f_z(x)dx} = \frac{\int _R x *f_z(x)dx}{1}$

因此均值可以看做是概率分布的重心

6.1.3.2 距离

均值的另外一重含义是距离。

我们让一个数字去逼近随机变量，找到一个距离随机变量最近的数字。

这其实是让数字去逼近函数，为了描述这个数字，我们就得找到一个合适的距离去定量，我们选择均方距离

均方距离

$E[(Z-Y)^2] \quad\quad Mean \quad Square$

等价于求均方距离导数为0的点

$\leftarrow a => E[(Z-a)^2] => min E(Z-a)^2 => \frac{d}{da}E(Z-a)^2=0$
这里需要注意一下，期望是求积分，求导是求微分，积分微分交换顺序有条件，这里就不检查了，一般是满足的。

$\frac{d}{da}E(Z-a)^2 = 0 \\ E(\frac{d}{da}(Z-a)^2) =0 \\ E(Z-a) = 0 \\ a = E(Z)$

这个a就是均值。说明均值就是在均方距离下与随机变量最接近的数字。

均值相对于分布来说，简单太多，是对随机变量最好的代言。

6.2 方差

在6.1.3.2求最接近随机变量的数字的时候，我们注意到，其实方差就是与随机变量最近的距离

方差定义

$Var(Z) =E[(Z- E(Z))^2]$

6.3 方差、均值与分布的关系

从距离这个角度来看，方差和均值是可以完全融合在一起看的。均值是离随机变量最近的数字，方差就是离随机变量最近的距离。均值代表的是随机变量平均的位置，方差代表的是随机变量散开的情况

均值和方差相比分布，在描述概率的准确性上损失了很多，但是在复杂度上得到了很大的收益。

Ciaran-byte

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录