to do list

最新推荐文章于 2022-10-02 13:48:59 发布

growoldwith_you

最新推荐文章于 2022-10-02 13:48:59 发布

阅读量347

点赞数

分类专栏： ML

本文链接：https://blog.csdn.net/growoldwith_you/article/details/70745163

版权

ML 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

牛顿法 \Hessian Matrix(http://jacoxu.com/jacobian%E7%9F%A9%E9%98%B5%E5%92%8Chessian%E7%9F%A9%E9%98%B5/)

Quasi-Newton method

似牛顿法

LDA

矩阵求导

动态规划

交叉熵和交叉熵损失函数：

熵的本质是香农信息量( $log\frac{1}{p}$ )的期望。

现有关于样本集的2个概率分布p和q，其中p为真实分布，q非真实分布。按照真实分布p来衡量识别一个样本的所需要的编码长度的期望(即平均编码长度)为：H(p)= $\sum_{i}^{} p(i)*log\frac{1}{p(i)}$ 。如果使用错误分布q来表示来自真实分布p的平均编码长度，则应该是：H(p,q)= $\sum_{i}^{} p(i)*log\frac{1}{q(i)}$ 。因为用q来编码的样本来自分布p，所以期望H(p,q)中概率是p(i)。H(p,q)我们称之为“交叉熵”。

仅从机器学习的角度讨论这个问题。

相对熵（relative entropy）就是KL散度（Kullback–Leibler divergence），用于衡量两个概率分布之间的差异。

对于两个概率分布 p(x) 和 q(x) ，其相对熵的计算公式为：

$\tt KL\it(p\parallel q)=-\int p(x)\ln q(x) dx -(-\int p(x)\ln p(x) dx)$

注意：由于 p(x) 和 q(x) 在公式中的地位不是相等的，所以 $\tt KL \it(p\parallel q)\not\equiv \tt KL \it (q\parallel p)$ .

相对熵的特点，是只有 p(x)=q(x) 时，其值为0。若 p(x) 和 q(x) 略有差异，其值就会大于0。其证明利用了负对数函数（ $-\ln x$ ）是严格凸函数（strictly convex function）的性质。具体可以参考PRML 1.6.1 Relative entropy and mutual information.

相对熵公式的前半部分 $-\int p(x)\ln q(x)dx$ 就是交叉熵（cross entropy）。

若 p(x) 是数据的真实概率分布， q(x) 是由数据计算得到的概率分布。机器学习的目的就是希望 q(x) 尽可能地逼近甚至等于 p(x) ，从而使得相对熵接近最小值0. 由于真实的概率分布是固定的，相对熵公式的后半部分 $(-\int p(x)\ln p(x) dx)$ 就成了一个常数。那么相对熵达到最小值的时候，也意味着交叉熵达到了最小值。对 q(x) 的优化就等效于求交叉熵的最小值。另外，对交叉熵求最小值，也等效于求最大似然估计（maximum likelihood estimation）。具体可以参考Deep Learning 5.5 Maximum Likelihood Estimation.