[Machine Learning]概率论-MLE-MAP-Bayes

本文详细介绍了概率论与统计学的基础概念,包括概率函数、似然函数、贝叶斯公式,以及两大统计学派别——频率学派和贝叶斯学派。频率学派通过最大似然估计寻找模型参数的确定值,而贝叶斯学派则利用最大后验概率估计考虑参数的先验分布。最大似然估计通过求解似然函数的最大值来估计参数,而最大后验概率估计在贝叶斯框架下结合先验信息求解最佳参数。此外,还讨论了贝叶斯估计在处理不确定性问题时的优势。
摘要由CSDN通过智能技术生成

概率论与统计学

以下内容来源
概率论是在给定条件(已知模型和参数)下,对要发生的事件(新输入数据)的预测。
统计推断是在给定数据(训练数据)下,对数据生成方式(模型和参数)的归纳总结。
概率论是统计学的数学基础,统计学是对概率论的应用。

对于函数P(x| θ),从不同的观测角度来看可以分为以下两种情况:
1.如果θ已知且保持不变,x是变量,则称P(x| θ)为概率函数,表示不同x出现的概率。
2.如果x已知且保持不变,θ是变量,则称P(x| θ)为似然函数,表示不同θ下,出现x的概率,也记作L(θ|x)或L(x;θ)。

一些公式

联合概率与边缘概率的关系如下:在这里插入图片描述
在这里插入图片描述
联合概率、边缘概率、条件概率的关系如下:
在这里插入图片描述
全概率公式:
A1,A2,…,An构成一个完备事件组,即它们两两互不相容(互斥),其和为全集,则在这里插入图片描述
贝叶斯公式:
在这里插入图片描述
P(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率;
P(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率,也被称作似然函数;
P(A)\P(B)是A\B的先验概率或边缘概率,P(B)程为标准化常量;
因此贝叶斯公式可表示为:后验概率=似然函数先验概率/标准化常量=标准似然比先验概率。

由全概率公式、贝叶斯法则可得:
在这里插入图片描述

两大学派

以下内容来源

频率学派 - Frequentist - Maximum Likelihood Estimation (MLE,最大似然估计)
贝叶斯学派 - Bayesian - Maximum A Posteriori (MAP,最大后验估计)

抽象一点来讲,频率学派和贝叶斯学派对世界的认知有本质不同:频率学派认为世界是确定的,有一个本体,这个本体的真值是不变的,我们的目标就是要找到这个真值或真值所在的范围;而贝叶斯学派认为世界是不确定的,人们对世界先有一个预判,而后通过观测数据对这个预判做调整,我们的目标是要找到最优的描述这个世界的概率分布。

我们这有一个任务,就是根据已知的一堆数据样本,来推测产生该数据的模型的参数,即已知数据,推测模型和参数,用 θ 表示模型的参数,请注意,解决问题的本质就是求 θ 。那么:

(1) 频率学派:存在唯一真值θ。举一个简单直观的例子–抛硬币,我们用 P(head)来表示硬币的bias。抛一枚硬币100次,有20次正面朝上,要估计抛硬币正面朝上的biasP(head)。在频率学派来看,θ = 20 / 100 = 0.2,很直观。当数据量趋于无穷时,这种方法能给出精准的估计;然而缺乏数据时则可能产生严重的偏差。例如,对于一枚均匀硬币,即θ= 0.5,抛掷5次,出现5次正面 (这种情况出现的概率是1/2^5=3.125%),频率学派会直接估计这枚硬币 θ= 1,出现严重错误。

(2) 贝叶斯学派θ是一个随机变量,符合一定的概率分布。在贝叶斯学派里有两大输入和一大输出,输入是先验 (prior)和似然 (likelihood),输出是后验 (posterior)。先验,即 P( θ ),指的是在没有观测到任何数据时对 θ 的预先判断,例如给我一个硬币,一种可行的先验是认为这个硬币有很大的概率是均匀的,有较小的概率是是不均匀的;似然,即 P(X| θ) ,是假设 θ已知后我们观察到的数据应该是什么样子的;后验,即 P( θ |X) ,是最终的参数分布。贝叶斯估计的基础是贝叶斯公式,如下:

P( θ |X) = P(X| θ) * P( θ ) / P(X)

同样是抛硬币的例子,对一枚均匀硬币抛5次得到5次正面,如果先验认为大概率下这个硬币是均匀的 (例如最大值取在0.5处的Beta分布),那么 P(head) ,即 P( θ |X) ,是一个distribution,最大值会介于0.5~1之间,而不是武断的 θ= 1。

这里有两点值得注意的地方:

1.随着数据量的增加,参数分布会越来越向数据靠拢,先验的影响力会越来越小
2.如果先验是uniform distribution,则贝叶斯方法等价于频率方法。因为直观上来讲,先验是uniform distribution本质上表示对事物没有任何预判

极大似然值估计(MLE)

以下内容来源
频率学派认为世界是确定的,即认为模型参数是个定值,希望通过类似解方程组的方式从数据中求得该未知数。
在这里插入图片描述
令L导数=0,即可解得 θ

为了求解方便,我们通常会将似然函数转成对数似然函数,然后再求解。可以转成对数似然函数的主要原因是对数函数并不影响函数的凹凸性。

最大似然估计的求解步骤:

  1. 确定似然函数
  2. 将似然函数转换为对数似然函数
  3. 求对数似然函数的最大值(求导,解似然方程)

正态分布

假设样本服从正态分布,则其似然函数为
在这里插入图片描述
对其取对数得:
在这里插入图片描述
分别对正太分布的参数求导,并令偏导数为0,得:在这里插入图片描述
解得:
在这里插入图片描述

最大后验概率估计(MAP)

贝叶斯派认为世界是不确定的,因获取的信息不同而异。他们不试图对事件本身进行建模,而是认为模型参数源自某种潜在分布,希望从数据中推知该分布。对于数据的观测方式不同或者假设不同,那么推知的该参数也会因此而存在差异。

最大似然估计认为使似然函数P(X| θ) 最大的参数 θ 即为最好的 θ ;最大后验概率求解时除了要考虑似然函数P(X| θ) 之外,还要考虑 θ 的先验分布P(θ) ,因此其认为使P(X| θ) P(θ)取最大值的 θ 即为最好的 θ,由于X 的先验分布P(X)是固定的,因此最大化函数可变为:在这里插入图片描述根据贝叶斯法,此时要最大化的函数是P(θ|X) ,即 θ 的后验概率,即求解P(X| θ) P(θ)的导数=0时的 θ 值即可。

最大后验概率估计的求解步骤:

  1. 确定参数的先验分布以及似然函数
  2. 确定参数的后验分布函数
  3. 将后验分布函数转换为对数函数
  4. 求对数函数的最大值(求导,解方程)

贝叶斯估计

贝叶斯估计是最大后验估计的进一步扩展,贝叶斯估计同样假定 θ 是一个随机变量,但贝叶斯估计并不是直接估计出 θ 的某个特定值,而是估计 θ 的分布,这是贝叶斯估计与最大后验概率估计不同的地方。
在已知X的情况下,描述 θ 的分布即描述P( θ |X),P( θ |X)是一种后验分布。如果后验分布的范围较窄,则估计值的准确度相对较高,反之,如果后验分布的范围较广,则估计值的准确度就较低。
在连续型随机变量中:在这里插入图片描述
由于计算复杂,几乎不可能,但对于某些例子来说,如果使用共轭先验分布,就可以更好的解决这个问题。
注:二项分布参数的共轭先验是Beta分布,多项式分布参数的共轭先验是Dirichlet分布,指数分布参数的共轭先验是Gamma分布,⾼斯分布均值的共轭先验是另⼀个⾼斯分布,泊松分布的共轭先验是Gamma分布。

在抛硬币的例子来说,二项分布参数的共轭先验是Beta分布,由于 θ 的似然函数服从二项分布,因此在贝叶斯估计中,假设 θ 的先验分布服从P( θ ) ~ Beta(α, β)
如下:在这里插入图片描述

贝叶斯估计要解决的不是如何估计参数,而是用来估计新测量数据出现的概率,对于新出现的数据\tilde{x}
在这里插入图片描述
贝叶斯估计的求解步骤:

  1. 确定参数的似然函数
  2. 确定参数的先验分布,应是后验分布的共轭先验
  3. 确定参数的后验分布函数
  4. 根据贝叶斯公式求解参数的后验分布

本文主要转载来源
作者:SnailTyan
链接:https://www.jianshu.com/p/9c153d82ba2d
来源:简书

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值