关于认识概率

最新推荐文章于 2024-07-10 10:44:18 发布

数据科学和工程

最新推荐文章于 2024-07-10 10:44:18 发布

阅读量1k

点赞数 11

分类专栏：概率文章标签：概率论

本文链接：https://blog.csdn.net/rongxiang20054209/article/details/136874011

版权

概率专栏收录该内容

1 篇文章 0 订阅

订阅专栏

背景

也许，这个世界运行的本质是概率。

在日常生活中，人们经常会有各种关于概率的论断（大部分是拍脑袋的）。例如：明天下雨的概率是1/4，明天股市上涨的概率是2/3，抛硬币出现正面的概率是1/2，等等。特别是在机器学习中，还需要使用概率来度量不确定性。

那么什么是概率呢？最早概率研究起源于赌博游戏。下图为西方赌场。
在这里插入图片描述

在1654年，赌徒梅勒（同时也是一位业余数学家）向当时的“数学神童”帕斯卡(Pascal)提出了他在赌场遇到的几个问题。后帕斯卡与费马在日常交流的通信中，对这些问题进行了详细讨论，但二人都不愿意发表研究成果（和赌博划清界限？）。费马与帕斯卡的通信中关于分赌注问题的讨论被公认为概率论诞生的标志。这些问题被统一称为赌博问题。例如下面的问题：

有两个赌徒聚众赌博。约定谁先赢 d 局就算赢了，当赌徒 A 赢 a 局 (a < d )，而赌徒 B 赢 b 局(b < d) 时。这时候突发事件，赌博被中止，问需要怎样分配赌资？

后来，惠根斯也用自己的方法解答了赌徒问题，并写成了《论赌博中的计算》一书，这是概率论最早的论著。他们的解法中引出了数学期望（mathematical expectation）概念，并由此奠定了古典概率的基础。因此可以说早期概率论的真正创立者是帕斯卡、费马和惠更斯。

第一部分理解和认知这个世界

在正式讨论概率定义前，需要讨论一个基本问题：人类应该如何去认知和理解所处的这个世界。当然这个基本问题的存在，是由于我们远远没有全部理解这个世界，否则这个问题不存在。那么当事物无法被自然科学认知的时候，就交给哲学来讨论。哲学也就有个专门分支：认知论。然而认知论本身也没统一意见（认知本身也没被搞清楚，套娃了，哈哈），分为两个流派：经验主义和理性主义。

1.1 经验主义

经验主义认为只能依靠感官才能认识世界，基于感官所得。然后再进行归纳推理，以此来获得知识。经验主义需要旧的知识作为节点来认识新事物，没有相应的节点就无法认识它。

主要工具是：归纳推理；归纳推理是从特殊到一般的推理过程。它基于对特定观察或实验结果的分析，提出更一般的结论或理论。与演绎推理相比，归纳推理的结论并不是绝对确定的，而是具有概率性或可能性。归纳推理的力度取决于观察的数量和多样性，以及推理过程的严密性。

1.2 理性主义

理性主义认为感官是不可靠的（归纳法也是不可靠的），更强调纯粹基于大脑进行演绎思维，由此来获得知识。

主要工具是：演绎推理。演绎推理是从一般到特殊的推理过程。它从一个或多个前提出发，通过逻辑推理得出结论。演绎推理的特点是如果前提为真，则结论必然为真。演绎推理的有效性不依赖于前提的实际真实性，而是依赖于推理过程的逻辑有效性。

总结一下，对于理解认知世界。如果你使用理性主义，就是在心中预设了一个相对明确的稳定的终极“标准”；而如果使用经验主义，则往往是边干边试，而没有一个明确而稳定的终极尺度去丈量。

对于概率的理解，同样存在理性主义和经验主义两个角度的定义和理解。

第二部分概率定义形式化到公理化

2.1 古典定义

在古典定义中，主要针对试验进行讨论，并且实验满足两个条件：

试验结果是一个有限集合；
每个试验结果的可能性相等；

这就是古典试验。对于古典试验中事件 $A$ ，它的概率定义为： $\mathbb{P}(A)=n/m$ ，其中n为该试验中所有可能出现的基本结果的总数目。m表示事件 $A$ 包含的试验基本结果数。现实中掷骰子就是最典型的案例。

古典定义是一个过于简单的定义模型，无法解释更为复杂的不确定现象。另外定义条件中出现了关键词"可能性相等"，逻辑上甚至有自己定义自己的逻辑问题。

古典定义概率是经验主义。

2.2 频率、统计定义

随着经验的积累，人们逐渐认识到，在做大量重复试验时，随着试验次数的增加，一个事件出现的频率，总在一个固定值附近波动。用这个固定值用来定义事件的概率，这就是频率定义。

后来有了微积分工具（极限），于是提出了建立在频率理论基础上的统计概率。即计算一个事件的概率值，唯一的方式是通过对该事件进行成千上万次独立试验。例如第n次事件A发生的相对频率为 $f_n(A)$ ，随着次数的增加，相对频率会逐渐收敛于一个固定值，这个极限值定义为事件的概率值。
$\mathbb{P}(A)=\lim _{n \rightarrow \infty} f_{n}(A)$
事实上，这个思想就是概率论中第一个极限定理：伯努利大数定理。

但是并不是所有的事件都是可以重复试验的。例如我们评估2022年俄罗斯出兵乌克兰的概率有多大，显然无法通过统计定义进行重复试验然后计算极限，而且生活中有很多这样的例子。所以说这还不是一个严谨的定义。

频率、统计定义中，频率序列的一般表达式是经验主义获得，但是通过无穷序列计算概率值是个演绎推理过程。

2.3 贝叶斯概率

统计定义认为概率是重复试验下频率的极限值。但是现实世界很多随机事件是无法重复试验的。在这个背景下，就有了贝叶斯学派对概率的定义，认为概率是主观对事件发生的信念强度。这种思想本质上将概率主观化，认为概率是主观根据经验和外界数据对事件发生可能性进行度量，即是人脑对数据的处理结果。事件的随机性不过是观察者掌握信息不完备所造成的，观察者所掌握的信息多寡将影响观察者对于事件的认知。
在这里插入图片描述

例如：2022年疫情爆发期间，意味着每个人被感染的概率较大，这就是一个先验判断。如果这个人抗原检测两道杠，那么确认感染的可能性就更大了，这是后验判断。

根据这个思想进而有了著名的贝叶斯公式：
$\mid B)=\frac{P(A) P(B \mid A)}{P(B)}$
其中 $A$ 、 $B$ 为随机事件（ $P (B)$ 不为零）。 $\mid B)$ 是指在事件 $B$ 发生的情况下，事件 $A$ 发生的概率，即 $A$ 的后验概率（条件概率）。而 $P (A)$ 为先验概率。

贝叶斯的思想类似于人类大脑对应信息的处理过程，不断迭代使用后验概率，修正更新先验概率，即贝叶斯推理（Bayesian inference）。所以被广泛应用于统计和机器学习中。

贝叶斯学派对概率的定义，并没有给出如何直接度量事件概率的大小，但是给出了推理过程。

2.4 概率论公理化

20世纪初，随着测度论的研究发展，为概率公理体系的建立奠定了基础。1933年苏联数学家柯尔莫哥洛夫（Kolmogorov）在他的《概率论基础》一书中，首次使用测度论将概率的定义以公理化语言进行定义，才将概率论正式纳入数学学科的研究范围，称为严谨的数学分支。
在这里插入图片描述

概率定义：设 $\Omega$ 为样本空间， $\mathcal{F}$ 为样本空间 $\Omega$ 上的 $\sigma$ 代数，那么定义在 $\mathcal{F}$ 上的函数 $\mathbb{P}$ 称为概率测度（即概率），如果满足下面的条件：

非负性：对于任何 $\in \mathcal{F}$ , $\mathbb{P}(A) \ge 0$ ;
规范性： $\mathbb{P}(\Omega)=0$ ;
可列可加性：对于 $\mathcal{F}$ 中互斥的可列个事件 $\{A_i,i\ge 1\}$ ,有：

$\mathbb{P}\left(\bigcup_{i\ge 1} A_{i}\right)=\sum_{i\ge 1} \mathbb{P}\left(A_{i}\right)$

上面定义有个测度论中的重要概念： $\sigma$ 代数。

$\sigma$ 代数： $X$ 为集合， $\mathcal{P}(X)$ 代表 $X$ 的幂集（子集全体），假设有集合 $\mathcal{F} \subseteq \mathcal{P}(X)$ 。若 $\mathcal{F}$ 满足下列条件

$\in \mathcal{F}$
$\in \mathcal{F} \Rightarrow A^{c} \in \mathcal{F}$
$A_{n} \in \mathcal{F}, \forall n \in \mathbb{N} \Rightarrow \bigcup_{n=1}^{\infty} A_{n} \in \mathcal{F}$ .

则称集合 $\mathcal{F}$ 是 $X$ 的 $\sigma$ -代数。在测度论里 $\mathcal{F})$ 称为一个可测空间。集合 $\mathcal{F}$ 中的元素，也就是 $X$ 的某子集，称为可测集合。这里的 $\sigma$ 代数的概念限定主要解决的问题是：不可测。那是因为并不是样本空间的任意子集都是可测的。

定义中将概率定义为特殊的测度函数，没有形式化解释什么是概率对象。而是描述满足公理条件的测度就定义为概率。这是理性主义，毋庸置疑了。

第三部分随机变量和概率

有些读者可能对上面的概率定义很陌生。那是因为目前国内高校概率论课程（甚至部分数学系）中介绍的概率定义并不是这样的。通常是基于随机变量的概念定义的。

**随机变量定义：**给定样本空间 $\Omega$ ，其上的实值函数 $\Omega \rightarrow \mathbb{R}$ 称 $X$ 为（实值）随机变量。

这不是一个严谨的定义，注意点有：

随机变量是定义在样本空间 $\Omega$ 的 $\sigma$ 代数上的可测函数。大部分概率论书籍不会介绍测度论知识，所以忽略了这个可测条件，后文会讲解原因。
随机变量是一个确定性函数，值并不是随机的（这个名称有一定的误导性）。

我们先看一下例子。连续抛两次硬币（正面记为 $H$ ，反面记为 $T$ ），容易得到样本空间为: $\Omega=\{ HH, HT, TH, TT \}$ 。定义一个样本空间上的函数 $X$ :出现正面的数量，显然 $X$ 是一个随机变量。函数取值表如下：

随机事件	X（出现正面的数量）随机变量值	概率值
${HH\}$	2	$\mathbb{P}(\{HH\})$ =1/4
${HT\}$	1	$\mathbb{P}(\{HT\})$ =1/4
${TH\}$	1	$\mathbb{P}(\{TH\})$ =1/4
${TT\}$	0	$\mathbb{P}(\{TT\})$ =1/4

那么我们为什么需要引入随机变量这个概念了？还是上面的例子，如果我们要计算出现正面的数量为1的概率。那么首先我们要选出符合条件的随机事件全体集合，然后计算，也就是：

$\begin{aligned}\mathbb{P}(正面数量为1的事件集合) & = \mathbb{P}(\{HT\}\cup\{TH\})= \mathbb{P}(\{HT\})+\mathbb{P}(\{TH\}) \\ &= 1/4+1/4 = 1/2 \end{aligned}$

在数学上，这种列举计算是不方便的。通常数学上我们把这种集合重新编码成数值，以方便后续的计算。所以我们引入了随机变量映射函数，将样本空间和数值对应起来，即信息编码。当然编码方式有多种，尽量结合计算场景定义合适的随机变量。
在这里插入图片描述

如果我们引入了随机变量，计算流程变为：
$\mathbb{P}(X\leq1) = \mathbb{P}(\{HT\}\cup\{TH\})=\mathbb{P}(\{HT\})+\mathbb{P}(\{TH\})=1/4+1/4=1/2$
由于数值映射对应后，我们可以快速找到小于等于1的事件集合。计算推导过程更为数字化，而不是集合形式化。事实上严格的表达应该是（ $\mathbb{P}$ 是个集合函数）：
$\begin{aligned}\mathbb{P}(X\leq1) & = \mathbb{P}(\{x\in \Omega|X(x)\leq1\})\\ &=\mathbb{P}(\{x\in \Omega|X(x)=1 \ or\ X(x)=2 \})\end{aligned}$
其中集合 $ {x\in \Omega|X(x)\leq1}={HT}\cup{TH}$ 。

3.1 离散型随机变量

样本空间本质是一个集合，例如上面的案例样本空间集合的势（集合元素多少的度量）是4，这是有限集合。当样本空间是无限集合的时候呢？

数学上无限有两种情况：可数集合（或可列集合）和不可数集合。对于样本空间可数时，下面的 $\mathbb{P}(X\leq x)$ 仍然是可以将样本空间中写成多个可数个集合的并集。这样仍然是可测集。

这一类随机变量我们称为离散型随机变量。常见的离散型随机变量有：0-1分布（也叫两点分布或伯努利分布）、二项分布、几何分布、泊松分布等。

3.2 连续型随机变量

而当样本空间是不可数集合时， $\mathbb{P}(X\leq x)$ 集合在样本空间中，可能是不可测集合（即不属于 $\sigma$ 代数，读者可以参考上文的定义思考）。那么如何解决这个危机呢？

这时候我们加强随机变量函数的条件，要求是连续函数。在测度论中，我们有鲁津定理描述连续函数和可测函数的关系，并且有下面的推论：

推论：对于任意开集 $G$ ，由连续函数反射开集的性质 $f^{-1}(G) $ 也为开集。

另外我们有个特殊的 $\sigma$ 代数：Borel 代数：

Borel代数定义：一个拓扑空间的开集全体所生成的 $\sigma$ 代数就是borel集。显然也是可测的。

所以对于连续随机变量 $X$ ， $X^{-1}((-\infin,x))$ 显然也是 $R$ 一个开集，borel 可测集。这样我们就解决了不可测集的危机。而这一类随机变量，我们称为连续型随机变量。常见的连续型随机变量有：均匀分布、指数分布、正态分布等。

事实上，对于随机变量函数只需要可测条件即可。实数轴上任何开区间（乃至任何开集）的原像都是可测的。更一般地，对于任何开集，通过余集、可列并集、可列交集所生成的集合（Borel集合），其原像也都是可测的。本质上，可测函数是一种几乎连续的函数，因为它的不连续部分为零测集（即测度为零的集合）。

但是实际应用中，遇到的大多函数通常都是连续函数。所以通俗概率论书籍中也不会讨论测度论（降低门槛），所以就缩小了讨论范围为连续型随机变量，而不是可测型随机变量。

第四部分统计和概率

4.1 方法论区别

关于概率论和统计学，下图很形象的解释了两者的区别。

概率论是统计学的理论基础。概率论解决的问题是：已知数据的概率分布，然后理论应用于实际数据，观测和研究数据性质。概率论的方法论属于演绎，即给定数据的概率模型，演绎出关于数据的丰富多彩的推论。概率论主要关注于理论模型和推理，是研究和描述随机现象的数学理论。它基于严格的数学公理体系，通过定义事件发生的概率来预测和分析结果。概率论的核心是建立模型来理解和预测随机事件的行为，例如抛硬币的结果、掷骰子的点数或者更复杂系统的行为模式。
统计学解决的问题是：已知部分数据（采样数据），然后推导、预测整体数据的概率分布。统计学的方法论属于归纳，通过采样数据，推断整体分布规律。统计学则更侧重于数据的收集、分析、解释和展示。它使用概率论的方法来分析和解释实际观测到的数据，从而对数据背后的过程做出推断。统计学的方法可以帮助我们从样本数据中推断总体特征，评估假设的可信度，以及进行预测和决策。统计学非常依赖于数据，它结合了理论和实际应用，旨在解决现实世界中的问题。

在现实世界中，大部分问题都是统计问题。由样本来推断总体的方法就叫统计推断法。

4.2 机器学习与统计

所以对于机器学习，其实我们更多是在使用统计方法。例如深度神经网络，已知采样的数据，然后构建深度网络结构（实际是非线性函数集合），然后通过性能函数挑选出最佳函数（即模型）。所以有一种观点是机器学习只是统计学的外延，披了一层华丽的外衣。

我们以监督学习为例，给定一个数据集： $X,Y)=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，这里 $x_i \in R^n$ 和 $y_i \in R$ 分别是输入和输出。

4.2.1 判别模型

学习系统基于数据集构建拟合决策函数 $y = f (x)$ （非概率模型），对新的输入 $x_{new}$ ，函数 $f$ 给出预测输出 $y_{new}$ 。

常见模型有：神经网络、SVM支持向量机、k近邻法、感知机、决策树、逻辑斯蒂回归模型、最大熵模型、Boosting方法和条件随机场等。

4.2.2 生成模型

而生成模型是数据集学习构建联合概率分布 $P (x, y)$ 和先验概率分布 $P (x)$ ，然后通过贝叶斯公式获得条件概率分布 $\mid x)$ 作为预测的模型，即得到生成模型:
$\mid x)=\frac{P(x, y)}{P(x)}$
生成方法强调的是 : 通过联合概率分布 $P (x, y)$ ，继而得到后验概率分布 $\mid x)$ 。

常见方法有：朴素贝叶斯、LDA、隐马尔可夫模型（HMM）、混合高斯模型。

事实上，判别模型（概率模型）中决策函数写成下面的形式： $y=f(x)=argmax_{y_i}\{P(y_i \mid x)\}$ ，其中 $\mid x)$ 为后验概率。所以对于分类问题，判别和生成模型是统一的，

所以说从统计学角度，机器学习本质目的是获得数据的后验概率： $\mid x)$ 。

第五部分总结

本文主要介绍概率论定义从约定俗成的形式化定义（经验主义）到柯尔莫哥洛夫的公理化定义（理性主义）的认知过程。两大认识论学派，对于概率的理解和应用体现了各自对知识来源和认识过程的不同看法。

经验主义认为所有知识都来源于感官经验。对于概率的理解，经验主义者会强调观察、实验和经验在形成和验证概率判断中的作用。他们可能认为，概率论的应用需要基于实际观察到的频率和统计数据，通过收集和分析经验数据来推断未来事件的可能性。在这个视角下，概率不是通过逻辑推导得出的抽象概念，而是通过对现实世界的观察和经验积累得出的经验性结论。

理性主义者认为，通过理性分析和逻辑推理，人们能够达到对世界的深刻理解。在概率的问题上，理性主义可能倾向于强调数学和逻辑推理在分析和预测不确定事件中的作用。他们可能会主张，概率论的基础是数学原理，这些原理可以通过纯粹的理性思考来掌握和应用，而不必依赖于实际经验。例如，贝叶斯定理本身就是基于条件概率的数学公式，理性主义者可能会强调这种公式在逻辑上的正确性和它在先验知识更新上的应用。

在现代科学研究中，两者往往是互补的，这在对概率的理解和应用上尤为明显。科学家们使用逻辑和数学模型来构建理论框架（理性主义的方法），同时通过实验和观察来收集数据，验证这些模型（经验主义的方法）。在概率论和统计学的应用中，理性推理提供了模型和理论的基础，而经验数据则用于模型的验证和修正。

讨论解释了随机变量的本质和测度论的关系，统计和概率、机器学习和概率的联系。