人工智能数学基础--概率与统计1：随机试验、样本空间、事件、概率公理定理以及条件概率和贝叶斯法则

原创已于 2022-03-20 16:41:13 修改

· 6k 阅读

7 ·

版权

文章标签：

#人工智能 #概率论 #概率统计 #贝叶斯法则 #样本空间

于 2022-03-14 08:10:19 首次发布

老猿Python 同时被 2 个专栏收录

1144 篇文章

订阅专栏

人工智能数学基础

66 篇文章

订阅专栏

随机试验

我们都非常熟悉在科学研究和工程中试验的重要性。试验对我们是有用的，因为我们可以假定，在非常接近的确定条件下进行固定的试验，基本上会得到相同的结果。在这样的环境中，我们可以控制那些对试验结果有影响的变量的值。

然而在某些试验中，我们不可能断定或控制一些变量的值，虽然大多数的条件都是相同的，但每一次试验的结果会不同。这样的试验称为随机的。

样本空间

由随机试验的一切可能的结果组成的一个集合S，称为样本空间。其中的每一个结果称为一个样本点。

经常会有多个样本空间能够用于描述同一个试验，但是通常只有一个会提供最多的信息。

如果一个样本空间仅有有限个数的点，则称为有限样本空间。如果有如自然数1,2,3,…那样多的点，则称为可数的无限样本空间。如果有数轴上的一个区间那样多的点，比如0≤x≤1,则称为非可数的无限样本空间。

当一个样本空间是有限的或可数的无限空间时，一般称为离散样本空间，一个非可数的无限空间称为非离散样本空间。

事件

一个事件就是样本空间S的一个子集A，也就是一些可能结果的一个集合。当一个试验的结果是A的一个元素时，则称事件A出现了。当一个事件仅包含S的一个单一点时，常称该事件是简单的或基本的。

S自身可看作一个特殊的事件，它是一个必然的或确定的事件，因为必定会出现S的一个元素。同时空集
(∅)称为不可能事件，因为∅中没有元素会出现。

对S中的事件进行集合运算，可以获得S中的其他事件。例如，如果A和B是事件，则：

A ∪B是“A或B或者两者同时出现”的事件，AUB称为A与B的并或A与B的和。
A∩B是“A，B同时出现”的事件，A∩B称为A与B的交或A与B的积。
A’是“A不出现”的事件，A’称为A的补或非。
A-B=A∩B’是“A出现但B不出现”的事件，特别A’=S-A。

如果事件A 和B是分离的，也就是A∩B=∅，则称事件是互斥的。这意味着两者不能同时出现。如果一个事件组A1，A2，·…，An，A中的任一对都是互斥的，则称为一个互斥事件组。

概率的概念

在一个随机试验中总是存在不确定性，即一个特殊的事件可能出现也可能不出现。作为我们所能期望的该事件出现的机会或概率的度量，通常约定为0和1之间的一个数值。

如果我们肯定该事件一定出现，则它的概率是100%或1，如果我们肯定该事件不会出现，则它的概率是0。
又比如，当概率是1/4时，我们认为它出现的机会是25%，不出现的机会是75%。等价地，我们可以说相对它的实现反映出的优势比为75%:25%，或3:1。

存在两种重要的方法，这时一个事件的概率可以用这些方法估计出来。

古典方法。如果总共n种可能的状态，每一种状态都是完全相似的，而一个事件在h个不同的状态中会出现，则这个事件的概率是h/n。
例1.10 假定我们想知道一次投掷硬币中掷出正面的概率。由于在投掷一枚硬币时有两个完全相似的状态，也就是正面和反面(假定不仔在滚动或边缘站立)，这两个状态仅有一个出现正面，我们有理由认为这个所求的概率是1/2。这里，当然要假定硬币是均匀的，也就是不偏向任何一个状态。
频率方法。将一个试验进行n次，当”相当大时，其中有h 次出现某一事件，则该事件的概率是h/n。这也称为该事件的经验概率。
例1.11 投掷一枚硬币1000次，发现正面出现532次，则我们估计正面出现的概率为532/1000=0.532。

占典方法和频率方法两者都有较严重的缺陷。第一种中，词“完全相似”是含糊不清的，而第二种中的“相当大”也是含糊不清的。因此数学家导出了概率的公理化方法。

概率的公理

假定我们有一个样本空间S。如果S是离散的，则其全部子集均视为事件，反之如果S是非离散的，则仅有一些特殊子集(称为可测的)视为事件。

对事件类C中的一个事件A，我们给以一个实数P(A)。如果下列公理能够满足，则称P是概率函数，P(A)称为事件 A 的概率：

公理1 对类C中的每一个事件A， P(A)≥0 ；
公理2 对类C中的确定事件S，P(S)=1；
公理3 对类C中的一些互斥事件A1，A2，…，P(A1 ∪ A2 ∪ ···)=P(A1)+P(A2)+···。特别地，对两个互斥事件A1，A2，P(A1∪ A2)=P(A1)+P(A2)。

概率的一些重要定理

从概率公理能够证明许多关于概率的定理，在今后的工作中它们是重要的。

定理1-1 如果A1⊂A2，则P(A1)≤P(A2)，同时 P(A2-A1)=P(A2)-P(A1)；
定理1-2 对任一事件A，0≤P(A)≤1，也就是一个概率在0和1之间；
定理1-3 P(∅)=0，也就是不可能事件的概率为0；
定理1-4 如果A’是A的补，则 P(A’)=1-P(A)；
定理1-5 如果A=A1∪A2∪···∪An，其中A1，A2，…，An是互斥事件，则
P(A)=P(A1)+P(A2)+.·+P(An)
特别，如果 A=S 为样本空间，则 P(A1)+P(A2)十···+P(An)=1
定理1-6 如果A和B是两个事件，则 P(A ∪ B)=P(A)+P(B)-P(A∩B)
更一般地，如果 A1，A2，A3是三个事件，则
P(A1 ∪ A2 ∪ A3)=P(A1)+P(A2)+P(A3)-P(A1∩A2)-P(A2∩A3)-P(A3∩A1)+P(A1∩A2∩A3)
也可以推广到n个事件。
定理1-7 对任意事件A和B，P(A)=P(A∩B)+P(A∩B’)
定理1-8 如果一个事件A必定出现在一组互斥事件A1,A2,…,An的某个中，则
P(A)=P(A∩A1)+P(A∩A2)+···+P(A∩An)

概率的确定

如果一个样本空间S包含有限个结果a1,a2,…,an，则由定理1-5，P(A1)+P(A2)+···+P(An)=1

其中A1，A2，…，An，是由Ai={ai}给出的基本事件。

从而，我们可以选择一些非负数作为这些简单事件的概率，只要它们满足上式。特别地假定全部简单事件有相等概率，则
P(Ak)=1/n，k=1，2，…，n
如果A是一个如此的h个简单事件叠加的事件，则我们有 P(A)=h/n

这与前面给出的古典概率方法是等价的，我们也可使用其他方法确定概率，比如前面给出的频率方法。

确定概率是提出一种数学模型，这一模型是否成功必须按同样的方式作多次试验来进行检验，采用的方式在物理或其他科学中的理论也须经试验检验。

条件概率

设A和B是两个事件(如图1-3)，其中P(A)>0：
在这里插入图片描述
用P(B|A)记给定A 出现时B的概率，由于A已经出现是已知事实，它就成了新的样本空间，代替了原来的 S，这就引出定义：P(BIA)=P(A∩B)/P(A)
或： P(A∩B） = P(A)P(BIA)
上式说明事件A和B同时出现的概率等于A出现的概率乘以A已发生时B出现的概率，称P(B|A)为 A 发生时B的条件概率，也就是给定A已经发生时B将出现的概率，很容易看出条件慨率满足前面给出的公理。

条件概率的定理

定理1-9 对任意三个事件A1，A2，A3，有 P(A1∩ A2∩A3) = P(A1)P(A2|A1)P(A3|A1∩A2)
该定理说明，A1，A2和A3，同时出现的概率等于 A1 出现的概率乘已知A1出现时A2出现的概率再乘上已知A1和A2都出现时 A3出现的概率。
这一结果可推广到n个事件。
定理1-10 如果事件A必定出现在互斥事件组A1，A2，…，An的某一事件中，则
P(A)=P(A1)P(A|A1)+P(A2)P(A|A2)+…+P(An)P(A|An)
老猿注：事件A必定出现在互斥事件组A1，A2，…，An的某一事件中，意味着A中的元素必须被A1，A2，…，An全包含，也可以在A1，A2，…，An中的多个中出现。

独立事件

如果P(B|A)=P(B)，也就是B出现的概率不受A出现或不出现的影响，则称A和B是独立事件。从条件概率公式可看出这等价于
P(A∩B)=P(A)P(B)，反之，如果有该式，则A和B是独立的。
对于三个事件A1，A2，A3 ，若它们每一对是独立的 P(Aj∩Ak)=P(Aj)P(Ak)，j≠k，这里j，k=1，2，3
而且同时有
P(A1∩ A2∩ A3)=P(A1)P(A2)P(A3)
则称这三个事件是独立的。

注意，上面两个定义单独自身一个是不够的。多于3个事件的独立性也容易定义。

贝叶斯(Bayes)定理

设A1，A2，…，An是一组互斥事件，它们的并是样本空间 S，也就是这些事件必有一个出现。则对任一个事件A，有下列重要定理：

定理1-11(贝叶斯法则)
在这里插入图片描述
老猿注：
才开始理解时，以为A必须是A1，A2，…，An中的一个，当样本空间只有A和B两个互斥事件时，则对应的贝公式为：P(A|B)=(P(B|A)P(A))/(P(A)P(A|A)+P(B)P(A|B)=P(A∩B)/(P(A)+P(A∩B))=0/P(A)=0，这样算没问题，但这样的公式没有实际意义，因为当Ak是A1，A2，…，An中的一个时，从上述公式可以得到：