先验概率和后验概率_机器学习基础->概率论

5b361c29490a91955d3b60801fb6ebc7.png

一 随机变量与概率

随机变量:可以随机取不同值的变量(概念可扩展到 向量值随机变量)

随机变量分类:①离散随机变量(例如骰子的点数) ②连续随机变量(线段上的某一个点)

数学表达式:x 表示随机变量,
表示随机变量的一个实例

概率分布:随机变量再每一个可能取到的状态的可能性大小

概率分布->独立性:A事件发生与B事件发生无关,则它们的概率分布可以用乘积表示

数学表达式

离散变量->概率分布:概率质量函数(probablity mass function,PMF)

概率质量函数将离散随机变量映射到随机变量取得该值的概率
数学表示:
或者
或者
  • 概率质量函数必须满足三点条件:
    • P的定义域必须可以取到x的所有可能值
    • , 概率值在[0, 1]
    • ,概率和为1

离散变量->联合概率分布: joint probablity distribution

数学表示:
或者

连续变量->概率分布:概率密度函数(probablity densityfunction,PDF)

  • 概率密度函数必须满足三点条件:
    • P的定义域必须可以取到x的所有可能值
某个瞬时的概率密度函数是可以大于1的,但是在定义域内的积分一定是等于1的

边缘概率:求“联合概率分布”中的一个子集的分布(全概率公式

离散边缘概率分布:

连续边缘概率分布:

条件概率:A事件已经发生的条件下,B事件发生的概率

数学表达式:

条件概率只有当
的时候才有意义,不可能发生的事件没有条件概率

条件概率->链式法则:

虽然这里没有做过多的介绍,但是十分重要!

置信区间and置信度:

什么是重点?这就是重点!!!

  • 统计学的核心思想是用样本去估计总体:样本->总体
  • 置信区间是一种区间估计(相对于“点估计”的概念)
  • 95%的置信度:如果从总体中抽取100个不同样本,每个样本都用相同的统计量构造的置信区间(注意:由于样本不相同,这些置信区间的范围也不尽相同),那么有95个置信区间包含了总体参数的真值。这个区间叫做置信区间,95%叫做置信度置信水平或者置信系数。
  • 统计量是随机变量,而总体的参数是一个确定数值
错误理解:构造完置信区间以后,总体的指标有95%的概率落在这个区间内 正确理解:通过样本构造区间( 区间估计)对总体的参数( 它是确定不变的)进行估计;不同的样本计算出来的样本不同,所得到的区间也不同;进行多次实验,得到N个区间,其中有95%*N个区间包含总体的参数。

二 随机变量分布

  • Gaussian Distribution(高斯分布)/normal Distribution(正态分布)

什么是重点?这就是重点!!!

数学表达式:
公式描述:
表示数据的均值,同时也是图像的峰值,
是数据的方差
图像描述:正态分布像一只倒扣的钟。两头低,中间高,左右对称。大部分数据集中在平均值,小部分在两端 理解:生活中大量的数据分布,都服从正态分布,大部分数据集中在均值附近 ,与均值相差大的数据出现的概率比较小 举例:某大学的男生身高分布 中心极限定理:给定一个 任意分布的总体。我每次从这些总体中随机抽取 n 个抽样,一共抽 m 次。 然后把这 m 组抽样分别求出平均值。 这些平均值的分布接近正态分布 标准正态分布表:要学会怎么看

为什么机器学习中很多假设,数据服从正态分布:

  1. 自然界最多的不是正态(高斯)分布,而是长尾(幂律等)分布。但是结合中心极限定理,可以将其他分布转换为正态分布;
  2. 确定均值和方差下,正态分布也就是熵最大,最混乱,最无序的分布;熵最大,可以平摊风险(同一个值会有两个点可以取到, 不确定性很大);对先验知识的要求最少

ea66934969cf122db3bb7118a591b921.png
  • Uniform distribution(均匀分布)
  • Heavy-tailed Distribution(长尾分布)
  • Bernoulli Distribution(伯努利分布)/Binomial Distribution(二项分布)
  • MultiBernoulli Distribution
  • Exponential Distribution(指数分布)
  • Laplace Distribution
  • Dirac Distribution(狄拉克分布)
  • Beta Distribution(Beta分布)

三 最大似然估计(Maximum likelihood estimation,MLE)

什么是重点?这就是重点!!!

  • 概率(probability)似然(likelihood):
    • 概率:已知随机变量的分布,计算事件发生的可能性
示例:质量均匀的硬币,在抛掷之前,我们合理推测->正面出现的结果是50%,出现反面的结果也是50%
    • 似然:通过实验得出事件发生的概率,推测事件的参数
    • 关系:
      • 如果结果和参数互相对应,似然和估计在数值上是相等的
      • 似然和概率的因果关系不同
示例:硬币一面是数字,一面是花纹;抛掷10,000次,5,000次数字,5,000次花纹,我们合理推测->虽然正反图案不同,但是硬币应该是质量均匀分布的
  • 概率函数似然函数:
表示数据,
表示模型参数
    • 概率函数:模型参数
      已知(即模型已经完全确定),求解
      发生的概率
    • 似然函数:数据
      已知(即知道样本具体数据),模型类型已知,求解模型参数
  • 最大似然估计:
根据已知样本分布信息,反推最具有可能(最大似然)导致这些样本结果出现的模型参数值
模型已知,参数未定,通过样本数据评估模型参数

要求:所有的采样必须独立同分布,即采样之间互不影响,每次采样服从同一个分布

举例子:

抛硬币,抛了十次,7次数字,3次花纹,求解抛硬币的模型

抛硬币的结果数字/花纹,假设为二项分布

计算

使得
最大

d78f935440a26d31b0d31e97338bf8cb.png

由图像可以知道

取0.7的时候,
取得极大值,所以模型的参数为0.7
虽然从图像中来看
取0.5的时候缺失没有0.7高,但是内心还是有一个小声音说,硬币一般不都是分布均匀的吗,是不是我们算错了啊?来!我们来看贝叶斯的
最大后验概率估计(Maximum a posteriori estimation,MAP)

四 贝叶斯定理

我们需要预估明天下雨的概率?
最简单直白的做法——>模拟“明天”发生N次,进行N次独立同分布实验,然后假设“明天是否下雨“服从二项分布,通过最大似然估计,计算参数,得到模型,然后根据模型预估明天下雨的概率

显然这是不可能的,那我们是不是没有办法预估"明天下雨"了呢?贝叶斯给出了他的解决方案

我们可以根据今天的天气状况,以及历史两天天气关系数据,预测明天天气。
|    
  • 贝叶斯定理

先验概率,即A发生的概率,可以是一个主观判断;
后验概率,事件B发生的条件下,A发生的概率
可能性函数,这是一个调整因子,即事件B的发生调整,作用是使鲜艳概率更加接近真实概率。
,”先验概率“被增强,事件A发生的可能性变大
,事件B无助于判断事件A的可能性
,”先验概率“被削弱,事件A发生的可能性减小
  • 继续解决下雨的问题:
1.
  • 理解:
后验概率(新信息出现后A发生的概率)=先验概率(A发生的概率)*可能性函数(新信息带出现来的调整)
在主观判断的基础上,可以先估计一个值(先验概率),然后根据观察的新信息不断修改(可能性函数)
  • 贝叶斯公式和全概率公式:

  • 贝叶斯定理的意义:

生活中我们无法进行大量的独立同分布实验,来直接计算模型,最后估计某件事发生的概率

往往我们遇到的都是“逆概率”问题,通过一些已知的事件,预测另外一件事情发生的概率

  • 等等,还没有结束,我们再来抛硬币(最大后验估计MAP)
最大似然估计的时候,我们总是觉得怪怪的,硬币应该是分布均匀的,二项分布的
取0.7,有点怪怪的

MAP优化的是后验概率,即

上式中

是似然函数,而
是先验概率。对其取对数

假设

服从Beta分布,那么在观测到”X = 抛10次硬币出现7次正面”的事件后,p(θ|X)p(θ|X)仍然是个Beta分布;初始的时候
取到0.5;到那时如果我们进行了10,000次实验,7,000次是数字,3,000次是花纹;Beta分布的极大值就会无限的靠近0.7,但是不会到达0.7
如果我们假设
服从正态分布,会有更有意思的发现:
在MAP中使用一个高斯分布的先验等价于在MLE中采用L2正则

五 参考文献

《深度学习 》([美]Ian,Goodfellow,[加]Yoshua,Bengio,[加]Aaron,Courville)【摘要 书评 试读】- 京东图书​item.jd.com 正态分布的前世今生(一) | 我爱自然语言处理​www.52nlp.cn 如何理解 95% 置信区间?​www.zhihu.com
详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解_网络_nebulaf91的博客-CSDN博客​blog.csdn.net
63e117d490ae20e2c858175c28d54c92.png
地平线下面的土豆:小白之通俗易懂的贝叶斯定理(Bayes' Theorem)​zhuanlan.zhihu.com
夏飞:聊一聊机器学习的MLE和MAP:最大似然估计和最大后验估计​zhuanlan.zhihu.com
5a783a8319a695109a3367d72c73c765.png
贝塔分布_weixin_43174621的博客-CSDN博客​blog.csdn.net
1ea54d7796f04bd07e254dee64718e18.png
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值