机器学习之最大后验估计(MAP)，交叉熵

最新推荐文章于 2024-01-07 02:07:23 发布

才大难为用

最新推荐文章于 2024-01-07 02:07:23 发布

阅读量2k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/HeroIsUseless/article/details/108699493

版权

机器学习专栏收录该内容

33 篇文章 61 订阅

订阅专栏

最大后验概率是在最大似然后面乘上一个先验概率，求的仍是一个具体值，但最大似然与最大后验有很大不同。

在最大似然估计中，用的是 $p(t|w,\textbf X,\delta^2)$ 乘在一起求最大值(极大似然的意义)，然后导等于0求出 $w$ 很好理解，求出来的 $w$ 就是最应该的值，

在最大后验概率估计中，求的是 $P(w|t,\textbf X,\delta^2)$ 的最大值，但是仍然通过求导等于0得出参数解，究其原因，应该就是在于高斯函数的求导等于0的地方，同时也是最大的，极值即最值。先验概率分布起到一个提升起跑线的作用，毕竟 $P (X)$ 是自己定的，在最大似然估计中，它被设定成了1(表示完全没有任何信息)，但是并没有分母，实际上，最大后验概率就是没有分母的，因此不能求最大值，只能求导来。

最大后验估计一般是这样的：
$\theta = argmax_\theta P(\theta|D)\sim argmax_\theta P(D|\theta)P(\theta)\\ =argmax_\theta logP(D|\theta)+logP(\theta)$

然后求导等于0求出 $w$ 。鉴于最大似然也是先取 $\log$ 再求导，最大后验的本质是多了一个 $logP(\theta)$ 项而已。

每日小常识：

信息量的定义为：
$I (x) = - l o g (p (x))$

例如当事件必定发生时，其信息量为0。而熵值越大，表明这个系统的不确定性就越大：
$H(x)=-\sum^n_{i=1}p(x_i)log(p(x_i))$

就是概率与信息量的乘积之和。
相对熵也成为KL散度，用来比较两条曲线是否一致是最好的(之前是用来检验简繁体字)(了解即可，用处不大)：
$D_{KL}(p||q)=\sum_ip(x_i)log(\frac{p(x_i)}{q_(x_i)})$

交叉熵，设 $p (x), q (x)$ 分别是随机变量 $X$ 的两个概率分布，其中 $p (x)$ 是目标分布， $p$ 和 $q$ 的交叉熵可以看作使用分布 $q (x)$ 表示目标分布 $p (x)$ 的困难程度：
$H(p,q)=-\sum_ip(x_i)logq(x_i)$

明白了，就是普通熵的一个变种。实际上：
$H(p,q)=D_{KL}(p,q)+H(p)$

通常 $p (x)$ 是训练数据，是固定的，即 $H (p)$ 是一个常量，这样算交叉熵也就等价于最小化这两个分布的相对熵 $D_{KL}(p||q)$ ， $q (x)$ 为训练得到的分布。注意下面的最大似然平均值：
$\frac{1}{m}\sum^m_ilog(x_i,\theta)=E(log(x,\theta))$