机器学习-白板推导系列(一)-绪论(机器学习的MLE(最大似然估计)和MAP(最大后验估计))

频率学派 - Frequentist - Maximum Likelihood Estimation (MLE,最大似然估计)
贝叶斯学派 - Bayesian - Maximum A Posteriori (MAP,最大后验估计)

现代机器学习的终极问题都会转化为解目标函数的优化问题,MLE和MAP是生成这个函数的很基本的思想,因此我们对二者的认知是非常重要的。这次就和大家认真聊一聊MLE和MAP这两种estimator。

1.频率学派和贝叶斯学派

1.1 抽象理解

频率学派和贝叶斯学派对世界的认知有本质不同:

  • 频率(概率)学派认为世界是确定的,有一个本体,这个本体的真值是不变的,我们的目标就是要找到这个真值或真值所在的范围。

    概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等)。 举个例子,我想研究怎么养猪(模型是猪),我选好了想养的品种、喂养方式、猪棚的设计等等(选择参数),我想知道我养出来的猪大概能有多肥,肉质怎么样(预测结果)。

  • 而贝叶斯学派认为世界是不确定的,人们对世界先有一个预判,而后通过观测数据对这个预判做调整,我们的目标是要找到最优的描述这个世界的概率分布。

    统计研究的问题则相反。统计是,有一堆数据,要利用这堆数据去预测模型和参数。仍以猪为例。现在我买到了一堆肉,通过观察和判断,我确定这是猪肉(这就确定了模型。在实际研究中,也是通过观察数据推测模型是/像高斯分布的、指数分布的、拉普拉斯分布的等等),然后,可以进一步研究,判定这猪的品种、这是圈养猪还是跑山猪还是网易猪,等等(推测模型参数)。

一句话总结: 概 率 是 已 知 模 型 和 参 数 , 推 数 据 。 统 计 是 已 知 数 据 , 推 模 型 和 参 数 。 \color{red}概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。

1.2 求解 θ \theta θ的角度

​ 假设有一堆数据 X X X,其中 X = ( x 1 , x 2 , . . . , x n ) T X=\left ( x_{1},x_{2},...,x_{n} \right )^{T} X=(x1,x2,...,xn)T,每个 x i x_{i} xi都是一个数据样本,都是i,i,d,有一个参数 θ \theta θ,使得每个数据样本 x x x都服从概率分布 x ∼ p ( x ∣ θ ) x\sim p\left ( x|\theta \right ) xp(xθ)

1.2.1 频率派估计(统计机器学习)

频率派认为 θ \theta θ 未 知 常 量 \color{red}未知常量 ,而 X = ( x 1 , x 2 , . . . , x n ) X = (x_1, x_2, ..., x_n) X=(x1,x2,...,xn) 随 机 变 量 \color{red}随机变量 ,我们需要通过数据 X X X来估计出 θ \theta θ,常用的方式是采用最大似然估计(Maximum Likelihood Estimate,MLE),也叫极大似然估计。
P ( X ∣ θ ) = ∏ i = 1 n p ( x i ∣ θ ) (1.1) P\left ( X|\theta \right )=\prod_{i=1}^{n}p(x_{i}|\theta )\tag{1.1} P(Xθ)=i=1np(xiθ)(1.1)
则:
θ ^ MLE = a r g m a x θ P ( X ∣ θ ) = a r g m a x θ ∏ i = 1 n P ( x i ∣ θ ) = a r g m a x θ ∑ i = 1 n log ⁡ P ( x i ∣ θ ) = a r g m i n θ − ∑ i = 1 n log ⁡ P ( x i ∣ θ ) (1.2) \begin{array}{r} \hat{\theta}_\text{MLE} &= \underset{\theta}{argmax} P(X| \theta) \\ & = \underset{\theta}{argmax} \prod_{i=1}^{n} P(x_i| \theta) \\ &= \underset{\theta}{argmax} \sum_{i=1}^{n} \log P(x_i| \theta) \\ &= \underset{\theta}{argmin} - \sum_{i=1}^{n} \log P(x_i| \theta) \end{array}\tag{1.2} θ^MLE=θargmaxP(Xθ)=θargmaxi=1nP(xiθ)=θargmaxi=1nlogP(xiθ)=θargmini=1nlogP(xiθ)(1.2)

  1. 最后这一行所优化的函数被称为 N e g a t i v e    L o g    L i k e l i h o o d ( N L L ) \color{red}Negative\;Log\;Likelihood (NLL) NegativeLogLikelihood(NLL),这个概念和上面的推导是非常重要的!
  2. 给定一些数据,求对应的高斯分布时,我们经常会算这些数据点的均值和方差然后带入到高斯分布的公式,其理论依据是优化NLL;
  3. 深度学习做分类任务时所用的cross entropy loss,其本质也是MLE.

我们只要求解上述等式,就可以得到最优解 θ \theta θ,一般的步骤是把上式看作损失函数,进行梯度下降等方法,最后逼近得到 θ \theta θ。这个方式就是我们采用机器学习方法来解决问题的一般流程:

  • 根据问题建立算法模型
  • 设定损失函数loss function
  • 通过优化方法来使损失函数最小,得到最优解参数 θ \theta θ

1.2.2 贝叶斯派估计(概率图模型)

  • 定义
    贝叶斯派认为 θ \theta θ也是一个 随 机 变 量 \color{red}随机变量 ,并且 θ ∼ p ( θ ) \theta\sim p\left (\theta \right ) θp(θ),其中 p ( θ ) p\left (\theta \right ) p(θ)是一个 先 验 概 率 \color{red}先验概率 。我们知道贝叶斯公式如下:
    P ( θ ∣ X ) = P ( X ∣ θ ) ⋅ P ( θ ) P ( X ) (1.3) P(\theta |X)=\frac{P(X|\theta)\cdot P(\theta )}{P(X)} \tag{1.3} P(θX)=P(X)P(Xθ)P(θ)(1.3)
    P ( X ) = ∫ θ P ( X , θ ) d θ = ∫ θ P ( X ∣ θ ) ⋅ P ( θ ) d θ (1.4) P(X)=\int_{\theta}^{}P(X,\theta )d{\theta }=\int_{\theta}^{}P(X|\theta )\cdot P(\theta )d{\theta } \tag{1.4} P(X)=θP(X,θ)dθ=θP(Xθ)P(θ)dθ(1.4)
    P ( θ ∣ X ) = P ( X ∣ θ ) ⋅ P ( θ ) ∫ θ P ( X ∣ θ ) ⋅ P ( θ ) d θ (1.5) P(\theta |X)=\frac{P(X|\theta)\cdot P(\theta )}{\int_{\theta}^{}P(X|\theta )\cdot P(\theta )d{\theta }} \tag{1.5} P(θX)=θP(Xθ)P(θ)dθP(Xθ)P(θ)(1.5)
    其中:

    • P ( θ ∣ X ) P(\theta |X) P(θX) 后 验 概 率 \color{red}后验概率 ,也就是我们要得到的东西,是最终的参数分布。
    • P ( θ ) P(\theta ) P(θ) 先 验 概 率 \color{red}先验概率 ,指的是在没有观测到任何数据时对 θ \theta θ 的预先判断。
    • P ( X ∣ θ ) P(X|\theta) P(Xθ) 似 然 \color{red}似然 ,是假设 θ \theta θ已知后我们观察到的数据应该是什么样子的。

    这里有两点值得注意的地方:
    1. 随 着 数 据 量 的 增 加 , 参 数 分 布 会 越 来 越 向 数 据 靠 拢 , 先 验 的 影 响 力 会 越 来 越 小 ; \color{red}1. 随着数据量的增加,参数分布会越来越向数据靠拢,先验的影响力会越来越小; 1.;
    2. 如 果 先 验 是 u n i f o r m d i s t r i b u t i o n ( 均 匀 分 布 ) , 则 贝 叶 斯 方 法 等 价 于 频 率 方 法 。 \color{red}2. 如果先验是uniform distribution(均匀分布),则贝叶斯方法等价于频率方法。 2.uniformdistribution 因为直观上来讲,先验是uniform distribution本质上表示对事物没有任何预判。

  • 最大后验估计Maximum a Posteriori estimation,MAP
    同样的,假设数据 x 1 , x 2 , . . . , x n x_1, x_2, ..., x_n x1,x2,...,xn是i.i.d.的一组抽样, X = ( x 1 , x 2 , . . . , x n ) X = (x_1, x_2, ..., x_n) X=(x1,x2,...,xn)。那么MAP对 θ \theta θ的估计方法可以如下推导:
    θ ^ MAP = a r g m a x θ P ( θ ∣ X ) = a r g m i n θ ( − log ⁡ P ( θ ∣ X ) ) = a r g m i n θ ( − log ⁡ P ( X ∣ θ ) − log ⁡ P ( θ ) + log ⁡ P ( X ) ) = a r g m i n θ ( − log ⁡ P ( X ∣ θ ) − log ⁡ P ( θ ) ) (1.6) \begin{array}{l}\hat{\theta}_\text{MAP} &= \underset{\theta}{argmax} P(\theta | X) \\ &= \underset{\theta}{argmin} (-\log P(\theta | X) )\\ & = \underset{\theta}{argmin}( -\log P(X|\theta) - \log P(\theta) + \log P(X)) \\ &= \underset{\theta}{argmin}( -\log P(X|\theta ) - \log P(\theta) ) \end{array}\tag{1.6} θ^MAP=θargmaxP(θX)=θargmin(logP(θX))=θargmin(logP(Xθ)logP(θ)+logP(X))=θargmin(logP(Xθ)logP(θ))(1.6)

    其中:

    1. 第 二 行 到 第 三 行 使 用 了 贝 叶 斯 定 理 , 第 三 行 到 第 四 行 P ( X ) 可 以 丢 掉 因 为 与 θ 无 关 。 \color{red}第二行到第三行使用了贝叶斯定理,第三行到第四行P(X)可以丢掉因为与\theta无关。 使P(X)θ
    2. 注 意 − log ⁡ P ( X ∣ θ ) 其 实 就 是 N L L \color{red}注意-\log P(X|\theta )其实就是NLL logP(Xθ)NLL
    3. M L E 和 M A P 在 优 化 时 的 不 同 就 是 在 于 先 验 项 − log ⁡ P ( X ∣ θ ) 。 \color{red}MLE和MAP在优化时的不同就是在于先验项-\log P(X|\theta)。 MLEMAPlogP(Xθ)
  • 先验项
    假定先验是一个高斯分布,即
    P ( θ ) = constant × e − θ 2 2 σ 2 (1.7) P(\theta) = \text{constant} \times e^{-\frac{\theta^2}{2\sigma^2}}\tag{1.7} P(θ)=constant×e2σ2θ2(1.7)
    那么,
    − log ⁡ P ( θ ) = constant + θ 2 2 σ 2 (1.8) -\log P(\theta) = \text{constant} + \frac{\theta^2}{2\sigma^2}\tag{1.8} logP(θ)=constant+2σ2θ2(1.8)
    即: 在 M A P 中 使 用 一 个 高 斯 分 布 的 先 验 等 价 于 在 M L E 中 采 用 L 2 的 r e g u l a r i z a t o n ! \color{red}在MAP中使用一个高斯分布的先验等价于在MLE中采用L_2的regularizaton! MAP使MLEL2regularizaton

  • 贝叶斯估计
    贝叶斯估计的实质是求后验概率,关键是求下式中分母的积分:
    P ( θ ∣ X ) = P ( X ∣ θ ) ⋅ P ( θ ) ∫ θ P ( X ∣ θ ) ⋅ P ( θ ) d θ (1.9) P(\theta |X)=\frac{P(X|\theta)\cdot P(\theta )}{\int_{\theta}^{}P(X|\theta )\cdot P(\theta )d{\theta }} \tag{1.9} P(θX)=θP(Xθ)P(θ)dθP(Xθ)P(θ)(1.9)
    常用的是 蒙 特 卡 洛 方 法 \color{red}蒙特卡洛方法 求解积分;采样积分方法 M C M C \color{red}MCMC MCMC也有很多应用。

  • 贝叶斯预测
    已知观测集有 N N N 个样本,每个样本都是 p p p 维向量。
    X N × p = ( x 1 , x 2 , ⋯   , x N ) T , x i = ( x i 1 , x i 2 , ⋯   , x i p ) T (1.10) X_{N\times p}=(x_{1},x_{2},\cdots,x_{N})^{T},x_{i}=(x_{i1},x_{i2},\cdots,x_{ip})^{T}\tag{1.10} XN×p=(x1,x2,,xN)T,xi=(xi1,xi2,,xip)T(1.10)
    新来了一个数据 x n e w x_{new} xnew,通过 θ \theta θ作为中间参数,估计新的后验概率:
    p ( x n e w ∣ X ) = ∫ θ p ( x n e w , θ ∣ X ) d θ = ∫ θ p ( x n e w ∣ θ ) ⋅ p ( θ ∣ X ) d θ (1.11) \begin{array}{l}p(x_{new}|X)&=\int\limits _{\theta}p(x_{new},\theta|X)d\theta\\ &= \int\limits _{\theta}p(x_{new}|\theta)\cdot p(\theta|X)d\theta \end{array}\tag{1.11} p(xnewX)=θp(xnew,θX)dθ=θp(xnewθ)p(θX)dθ(1.11)

2. 过拟合

频率学派——最大似然估计MLE
贝叶斯学派——最大后验估计MAP

2.1 频率学派过拟合

最大似然估计有过拟合的现象,频率派的缓解方法:

  • (a)通过添加正则化项;
  • (b)模型集成;

注意: 过 拟 合 是 频 率 派 才 有 的 说 法 \color{red}过拟合是频率派才有的说法

2.1 贝叶斯派过拟合

贝叶斯派用两种手段克服了过拟合:

  • (1)引入先验,即做最大后验估计; 【与(a)等价】
  • (2)计算后验分布的积分(相当于给不同模型进行加权组合) 【与(b)等价】:
    MAP,解决了过拟合问题。不过却依旧求得了一个固定的参数 θ \theta θ

2.3. MLE 和 MAP 过拟合

MLE 和 MAP 在优化时的不同就是: M A P 多 了 一 个 先 验 项 。 \color{red}MAP多了一个先验项。 MAP
下面以回归问题为例,对误差的分布做两种不同的假设,并对模型先验也做两种不同的假设,得到四种不同形式的损失函数(等价于MAP的结果,或者说等价于 正则化后MLE的结果):
在这里插入图片描述
正则化的本质在于认为地向模型中融入先验 ,或者说 ,认为地对 模型分布(复杂度)进行了约束。

  • 在 M A P 中 使 用 一 个 “ 高 斯 分 布 的 先 验 ” 等 价 于 在 M L E 中 采 用 “ L 2 正 则 化 ” ; \color{red}在MAP中使用一个“高斯分布的先验” 等价于 在MLE中采用 “L2正则化”; MAP使MLEL2
  • 在 M A P 中 使 用 一 个 “ 拉 普 拉 斯 分 布 的 先 验 ” 等 价 于 在 M L E 中 采 用 “ L 1 正 则 化 ” ; \color{red}在MAP中使用一个“拉普拉斯分布的先验” 等价于 在MLE中采用 “ L1正则化”; MAP使MLEL1
  • 深 度 学 习 做 分 类 任 务 时 所 用 的 c r o s s    e n t r o p y    l o s s , 其 本 质 也 是 M L E 。 \color{red}深度学习做分类任务时所用的cross\;entropy\;loss,其本质也是MLE。 crossentropylossMLE

参考:

  1. 详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解
  2. 聊一聊机器学习的MLE和MAP:最大似然估计和最大后验估计
  3. 频率派VS贝叶斯派
  4. 机器学习笔记(1)-频率派和贝叶斯派
  5. https://www.bilibili.com/video/BV1aE411o7qd?t=376&p=2
  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值