概率论与统计的基础知识（概率空间、最基本的分布、数字特征）

最新推荐文章于 2024-12-21 17:12:29 发布

LeetCoder

最新推荐文章于 2024-12-21 17:12:29 发布

阅读量4.1k

点赞数 2

分类专栏：概率论

本文链接：https://blog.csdn.net/baozhiqiangjava/article/details/106442792

版权

概率论专栏收录该内容

2 篇文章

订阅专栏

了解最基础的概率论知识，参考来自《概率导论》和《波利亚罐子模型的相关分布》

1 样本空间与概率

1.2概率模型

1.2.1 样本空间和事件

每个概率模型对应一个试验，这个试验所产生的所有可能结果组成了样本空间，其中某些结果占样本空间比例就是它的概率。事件是结果的集合，可以是结果的交集、并集啥的都行。

举个例子：

波利亚罐子模型就是一种概率模型，它所产生的罐子中所有球的各自个数和比例就可以叫随机变量，而RC算法所找到的点具有某种性质，它所代表的事件占样本空间比例就是概率。

1.2.2 恰当的样本空间（恰好刻画规律而我们感兴趣）

举个例子：十次投硬币，我们可以关心10次投硬币正面向上的次数。（这是一个0，到10的样本空间，每次试验结果都是互斥的）。

1.2.3 序贯模型

现实中的n重伯努利实验、几何分布、二项分布、泊松分布都是序贯模型。

举个例子：

1.2.4 概率律

我们已经确定了试验和对应样本空间，那么概率律就表示确定任何结果或者结果集合的似然程度，也就是说它给每一个事件一个概率。那么这些概率就相当于数学里面的数字了，在样本空间中，它有自己的计算方法。即

概率的具体解释是频率，在大量重复试验的情况下，发生A事件的次数占比趋向于其频率。

以上，我们便定义了概率论的基石，就是给大量重复试验中选择样本空间，在这个样本空间中，某种事件出现的概率，其在样本空间满足非负性、可加性、归一化等定理。由这些可以推导概率论中很多性质。

1.2.5 离散模型

离散模型和连续模型的不同在于样本空间的离散还是连续。

考虑一个例子：

我们有

那么现在假设这有限个可能结果的概率是均等的，那么有

1.2.6 连续模型

考虑一个例子：

1.2.7 概率律的其他性质

都可以由三条基本定理推导出来

1.2.8 模型与现实

它是指对待一个实验的时候，一定要清楚样本空间是什么。

1.3 条件概率

先有直观的理解，后有数学定义，然后就分流了，一方面是纯数学的关心数学工具本身性质等等，另一方面是直接用数学工具的各种结论去应用。

直观

数学定义

其纯数学方面的性质

条件概率是定义在已经发生的事件上的概率，样本空间就是已经发生的事件本身。它就会满足概率的三个公理，可加性、非负性、归一性。

这个跟数学发展是一样的，从定义和公理出发，推导出一切推论。比如定义自然数及其运算，这里是定义概率律及其运算。

1.6 计数法

学习它，是为了解决理解多项式分布的理论困难，计数法是组合数学的一部分。推荐去看下《组合数学》。

1.6.1 计数准则

最基础的计数原则就是分阶段计数了，在这里，树形图可以很好地帮助我们得到所有可能结果的数目。

1.6.2 n选k排列

这才明白排列的意思，n中选k，与次序有关，比如ab和ba被认为是两种，利用计数准则（树形图）来解释比较好的，直观易懂。

而组合，是n中选k，k个不同的序列，与次序无关。是一种集合的概念。在二项式分布中的属于组合。

1.6.4 分割

从n中选k的组合可以看做对n的分割，分割成两个集合，一个是k个，另一个是n-k个元素。

这可以帮助我们理解多项式分布，从集合的角度分阶段，先确定一个集合，再确定另一个集合，直到确定r个集合。

1.7 小结

2 离散随机变量

在概率论对应的实验和样本空间中，每个实验结果关联着一个数，这个数就是随机变量，随机变量是实验结果的一个实值函数。

举个例子：比如在波利亚罐子模型中，进行n-1次抽取过程中，其中某种球被抽取的次数就是一个随机变量。它代表n-1次实验某个实验结果，关联着一个明显的数值（抽取次数）。很明显，它是离散的，因为它的值域只取有限多个值。

举个例子：波利亚罐子模型下，n-1次抽取中，某种球被抽取次数是个随机变量，离散的。我们关心它关联某个数值的概率，这是它最重要的特征。我们用分布列描述它，这自然就解释了某某随机变量趋向某某分布的话。

2.2.1 伯努利随机变量

一种特别的随机变量，这种随机变量的实验结果只有两种，成功或者不成功。

2.2.2 二项随机变量

将伯努利实验进行n次，我们关心n次出现x次的概率，这个x就是一个二项随机变量。

2.2.3 几何随机变量

独立实验序列中直到实验第一次“成功”所需的试验次数，这个成功可以换成别的东西，比如波利亚罐子模型的抽取到某个球之类的事件。

2.2.4 泊松随机变量

它是二项分布的n很大，p很小的情况。

2.3 随机变量的函数

在某个随机变量x上，以它为自变量，构建函数到另一个随机变量y上。y也是一个随机变量。

2.4 期望与方差

每次进行实验时，期望的数值是多少？这就是随机变量的期望。

考虑波利亚罐子模型中n-1次抽取（返回不加球）中，你期望某个颜色球抽取的次数是多少？这就是二项分布啊，比如抽球100次，刚开始有两种颜色球，每个球一个。抽取100次中，白色球被抽取的次数是50次，那这不就是二项分布吗？

而方差定义了随机变量在期望附近的分散程度的一个测度。由其公式就可以看出

2.4.4 利用期望进行决策

我对于那种某次失败，之后就不能进行的概率论实验不太会，我目前接触的都是n次实验，然后求解其中出现的某些随机变量。

我是没想到用钱作为随机变量，来计算期望判断，这个很神奇，选择你的随机变量计算相应期望即可。有个小技巧，就是你想要什么，就把什么作为随机变量，分析其分布列，得到期望就好。

2.5 多个随机变量的联合分布列

一个实验设计几个随机变量，多个随机变量是一个实验结果之下的多个随机变量，它们涉及的样本空间和概率是相同的。

1 在上图的公式中，划线部分就是概率图模型的理论基础了，因为在图上上每个点都可以认为是一个离散随机变量，所以计算某个节点的边缘分布，就可以利用上式。

2 波利亚罐子模型中的每种球抽取次数的联合分布列就是这样的，就是下图的东西。

这是多个离散随机变量的联合分布，想要得到某个随机变量边缘分布列，就需要进行加法法则。将其从联合概率中加起来。

2.5.1 多个随机变量的函数

通过多个离散随机变量，可以构建更多的随机变量。

2.6 条件

已经发生某个事件下的随机变量的分布列。

3 一般随机变量

学习这个是好奇论文中是如何把分支数目的离散边缘分布，给它过度到连续的贝塔分布的？

借助微积分的知识来理解这个连续随机变量，

解决我的问题了，因为概率密度的密度定义就是落入这个区间的概率，不一定就是某个分支刚好等于n/d的概率，只能表示某个分支比例取值某个区间的概率。所以就不能单纯用d乘了，

4 随机变量的深入内容

4.2 协方差和相关

介绍如何量化两个随机变量之间关系的大小与方向。

想起来我所要做的事情，量化多个分支之间大小与长度，或许可以借鉴这个。参考这个，给出了很多数字特征。https://blog.csdn.net/thesnowboy_2/article/details/69564226

5 极限理论

讨论随机变量序列的渐进性质

讨论大数定律的内容，即随机变量序列Mn，从大样本意义上看，收敛于Xi的均值。

5.1 马尔科夫和切比雪夫不等式

不得不说，这是一句显而易见的废话。让我康康怎么证明

不看了，有点复杂

马尔科夫不等式和切比雪夫不等式可以帮助我们获取

切比雪夫不等式就是刻画事物偏离它本质的偏离程度的大小的概率。
在随机变量分布未知的情况下，我们只知道均值和方差，切比雪夫不等式给出了x落入均值为中心的ε邻域概率的概率范围。

5.2 弱大数定律

5.3 依概率收敛

这里的收敛和数列的收敛定义是不一样的。

7 马尔可夫链

7.1 离散马尔可夫链

状态空间以及其中的转换。将其和数学分析联系就是定义是马尔可夫链，公理是其假设条件。由此后面都可以推导出来。

7.1.1 路径的概率

在某一篇论文就认为源点到边界点的所有路径是马尔科夫链，进而计算该给定状态序列的概率。综合起来就是该点的最大似然，MAP一派是这样的。

7.1.2 n步转移概率

这个不就是当前某点为源点情况下，未来某个时期所有节点的状态概率分布的理论基础吗？也就是概率图模型DMP一派。

7.2 状态的分类

8 贝叶斯统计推断

统计推断是从观察数据推断未知变量和未知模型的有关信息过程。

举个例子：

观察到t时刻传播数据，推断源点、推断传播模型、推断传播时间、推断传播参数等。

概率与统计

概率论是建立在第一章公理上自我完备的数学课题，假设有一个模型能对应现实，那么其满足概率公理，然后我们

运用数学方法对这个概率模型进行量化，即可。但是统计，就存在很多合理的方法，有不同的结论。通过人们加的假设和条件，其结果都不一样。

贝叶斯统计与经典统计

区别仅仅在于如何看待未知变量或者模型，贝叶斯认为它是已知的某种分布，借助数据来调整它。而经典统计认为它是未知的，需要估计。

举个例子：

再举个例子：

最大似然估计就是经典统计推断方法，谣言源定位问题可以被看做这样一个问题。认为源点是一个参数，未知，需要估计。而贝叶斯map统计推断就是2018常等人的方法，这两种主流统计推断都用在了溯源问题。

模型推断和变量推断

模型推断就是根据输入、输出来推断过程，变量推断是根据输出推断输入。有时候，可以两者结合。

举个例子：

溯源问题的中ML估计器就是变量推断、而推断传播模型就是模型推断。

统计问题的简单分类

本章目录

8.2 点估计、假设实验、最大后验概率准则

前面贝叶斯推断是一个贝叶斯的总体公式，该公式给出了知道先验分布、条件分布列或者概率密度函数后的后验概率结果，其实就是先验+后验数据去更新先验得到新的分布而已，而最大后验概率就是对任意给定的观察值，需要得到后验概率最大的那个参数。（通过结果去得到概率最大的参数）

8.2.1 点估计(参数估计）

构建关于观察值X的函数，类似反函数，然后每个观察值都可以得到一个参数估计，如果你要取最大的参数估计，那就是最大后验，也可取条件期望。

对于溯源问题来说，如果使用最大后验估计，那便是需要知道源的先验概率分布，以及数据的更新。来得到后验概率分布，这本身就没有解析式，但是贝叶斯思想仍然可以用，这算什么？

1 如果有解析式那就得到后验概率分布，然后数学分析其跟参数的单调性关系。或者使用条件期望直接计算其最大参数估计，两种方法都可以得到各自的最大参数估计，但是两者不一定相等。

2 如果没有解析式，但是还是可以用数学思想，那么可以使用数值计算、或者近似计算、或者啥的。比如我的问题中的MAP一派。没有明确解析式，那就是自己去用新的方式去建模网络传播，得到源点似然最大。

8.2.2 假设检验

假设检验是一种方法, 目的是为了判断一个关于总体特征的定量的断言（假设）的真实性. 人们通过从总体中抽出的随机样本来计算适当的统计量来检验一个假设. 如果得到的统计量的实现值在假设为真时应该是罕见的（小概率事件）, 则有理由拒绝这个假设.

假设实验的理论框架

（1）什么是假设检验
假设检验是指预先对总体参数的取值做出假定，然后用样本数据来验证，从而做出是接受还是拒绝的结论。
（2）假设检验的思考逻辑
基本思路是：问题是什么？证据是什么？判断依据是什么？做出结论。
基本步骤：
1)、提出原假设和备择假设
2)、确定适当的检验统计量
3)、规定显著水平，查出临界值，确定拒绝域和接受域
4)、计算检验统计量的值，做出统计决策。