先验概率和后验概率_机器学习基础->概率论

最新推荐文章于 2023-05-21 09:11:58 发布

weixin_39676633

最新推荐文章于 2023-05-21 09:11:58 发布

阅读量1.1k

点赞数

文章标签：先验概率和后验概率

一随机变量与概率

随机变量：可以随机取不同值的变量(概念可扩展到向量值随机变量)

随机变量分类：①离散随机变量(例如骰子的点数) ②连续随机变量(线段上的某一个点)

数学表达式：x 表示随机变量，
表示随机变量的一个实例

概率分布：随机变量再每一个可能取到的状态的可能性大小

概率分布->独立性：A事件发生与B事件发生无关，则它们的概率分布可以用乘积表示

数学表达式

离散变量->概率分布：概率质量函数(probablity mass function，PMF)

概率质量函数将离散随机变量映射到随机变量取得该值的概率
数学表示：
或者

或者

概率质量函数必须满足三点条件：
- P的定义域必须可以取到x的所有可能值
- , 概率值在[0, 1]
- ，概率和为1

离散变量->联合概率分布: joint probablity distribution

数学表示：
或者

连续变量->概率分布：概率密度函数(probablity densityfunction，PDF)

概率密度函数必须满足三点条件：
- P的定义域必须可以取到x的所有可能值

某个瞬时的概率密度函数是可以大于1的，但是在定义域内的积分一定是等于1的

边缘概率：求“联合概率分布”中的一个子集的分布（全概率公式）

离散边缘概率分布：

连续边缘概率分布：

条件概率：A事件已经发生的条件下，B事件发生的概率

数学表达式：

条件概率只有当
的时候才有意义，不可能发生的事件没有条件概率

条件概率->链式法则：

虽然这里没有做过多的介绍，但是十分重要！

置信区间and置信度：

什么是重点？这就是重点！！！

统计学的核心思想是用样本去估计总体：样本->总体
置信区间是一种区间估计(相对于“点估计”的概念)
95％的置信度：如果从总体中抽取100个不同样本，每个样本都用相同的统计量构造的置信区间(注意:由于样本不相同，这些置信区间的范围也不尽相同)，那么有95个置信区间包含了总体参数的真值。这个区间叫做置信区间，95%叫做置信度，置信水平或者置信系数。
统计量是随机变量，而总体的参数是一个确定数值

错误理解：构造完置信区间以后，总体的指标有95%的概率落在这个区间内 正确理解：通过样本构造区间( 区间估计)对总体的参数( 它是确定不变的)进行估计；不同的样本计算出来的样本不同，所得到的区间也不同；进行多次实验，得到N个区间，其中有95%*N个区间包含总体的参数。

二随机变量分布

Gaussian Distribution(高斯分布)/normal Distribution(正态分布)

什么是重点？这就是重点！！！

数学表达式：

公式描述：
表示数据的均值，同时也是图像的峰值，

是数据的方差
图像描述：正态分布像一只倒扣的钟。两头低，中间高，左右对称。大部分数据集中在平均值，小部分在两端 理解：生活中大量的数据分布，都服从正态分布，大部分数据集中在均值附近，与均值相差大的数据出现的概率比较小 举例：某大学的男生身高分布 中心极限定理：给定一个 任意分布的总体。我每次从这些总体中随机抽取 n 个抽样，一共抽 m 次。然后把这 m 组抽样分别求出平均值。这些平均值的分布接近正态分布 标准正态分布表：要学会怎么看

为什么机器学习中很多假设，数据服从正态分布：

自然界最多的不是正态（高斯）分布，而是长尾（幂律等）分布。但是结合中心极限定理，可以将其他分布转换为正态分布；
确定均值和方差下，正态分布也就是熵最大，最混乱，最无序的分布；熵最大，可以平摊风险(同一个值会有两个点可以取到, 不确定性很大)；对先验知识的要求最少

Uniform distribution(均匀分布)
Heavy-tailed Distribution(长尾分布)
Bernoulli Distribution(伯努利分布)/Binomial Distribution(二项分布)
MultiBernoulli Distribution
Exponential Distribution(指数分布)
Laplace Distribution
Dirac Distribution(狄拉克分布)
Beta Distribution(Beta分布)

三最大似然估计(Maximum likelihood estimation,MLE)

什么是重点？这就是重点！！！

概率(probability)与似然(likelihood)：
- 概率：已知随机变量的分布，计算事件发生的可能性

示例：质量均匀的硬币，在抛掷之前，我们合理推测->正面出现的结果是50%，出现反面的结果也是50%

- 似然：通过实验得出事件发生的概率，推测事件的参数
- 关系：
  - 如果结果和参数互相对应，似然和估计在数值上是相等的
  - 似然和概率的因果关系不同

示例：硬币一面是数字，一面是花纹；抛掷10,000次，5,000次数字，5,000次花纹，我们合理推测->虽然正反图案不同，但是硬币应该是质量均匀分布的

概率函数和似然函数：

表示数据，

表示模型参数

- 概率函数：模型参数
  已知(即模型已经完全确定)，求解
  
  发生的概率
- 似然函数：数据
  已知(即知道样本具体数据)，模型类型已知，求解模型参数

最大似然估计：

根据已知样本分布信息，反推最具有可能(最大似然)导致这些样本结果出现的模型参数值
模型已知，参数未定，通过样本数据评估模型参数

要求：所有的采样必须独立同分布，即采样之间互不影响，每次采样服从同一个分布

举例子：

抛硬币，抛了十次，7次数字，3次花纹，求解抛硬币的模型

抛硬币的结果数字/花纹，假设为二项分布

计算

使得

最大

由图像可以知道

取0.7的时候，

取得极大值，所以模型的参数为0.7

虽然从图像中来看
取0.5的时候缺失没有0.7高，但是内心还是有一个小声音说，硬币一般不都是分布均匀的吗，是不是我们算错了啊？来！我们来看贝叶斯的
最大后验概率估计(Maximum a posteriori estimation,MAP)

四贝叶斯定理

我们需要预估明天下雨的概率？
最简单直白的做法——>模拟“明天”发生N次，进行N次独立同分布实验，然后假设“明天是否下雨“服从二项分布，通过最大似然估计，计算参数，得到模型，然后根据模型预估明天下雨的概率

显然这是不可能的，那我们是不是没有办法预估"明天下雨"了呢？贝叶斯给出了他的解决方案

我们可以根据今天的天气状况，以及历史两天天气关系数据，预测明天天气。

贝叶斯定理

先验概率，即A发生的概率，可以是一个主观判断；

后验概率，事件B发生的条件下，A发生的概率

可能性函数，这是一个调整因子，即事件B的发生调整，作用是使鲜艳概率更加接近真实概率。

，”先验概率“被增强，事件A发生的可能性变大

，事件B无助于判断事件A的可能性

，”先验概率“被削弱，事件A发生的可能性减小

继续解决下雨的问题：

1.

理解：

后验概率(新信息出现后A发生的概率)＝先验概率(A发生的概率)*可能性函数(新信息带出现来的调整）
在主观判断的基础上，可以先估计一个值(先验概率)，然后根据观察的新信息不断修改(可能性函数)

贝叶斯公式和全概率公式：

贝叶斯定理的意义：

生活中我们无法进行大量的独立同分布实验，来直接计算模型，最后估计某件事发生的概率

往往我们遇到的都是“逆概率”问题，通过一些已知的事件，预测另外一件事情发生的概率

等等，还没有结束，我们再来抛硬币(最大后验估计MAP)

最大似然估计的时候，我们总是觉得怪怪的，硬币应该是分布均匀的，二项分布的
取0.7，有点怪怪的

MAP优化的是后验概率，即

上式中

是似然函数，而

是先验概率。对其取对数

假设

服从Beta分布，那么在观测到”X = 抛10次硬币出现7次正面”的事件后，p(θ|X)p(θ|X)仍然是个Beta分布；初始的时候

取到0.5；到那时如果我们进行了10,000次实验，7,000次是数字，3,000次是花纹；Beta分布的极大值就会无限的靠近0.7，但是不会到达0.7

如果我们假设
服从正态分布，会有更有意思的发现：

在MAP中使用一个高斯分布的先验等价于在MLE中采用L2正则

五参考文献

《深度学习》([美]Ian,Goodfellow,[加]Yoshua,Bengio,[加]Aaron,Courville)【摘要书评试读】- 京东图书item.jd.com 正态分布的前世今生(一) | 我爱自然语言处理www.52nlp.cn 如何理解 95% 置信区间？www.zhihu.com

详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解_网络_nebulaf91的博客-CSDN博客blog.csdn.net