多分类问题中的交叉熵

最新推荐文章于 2024-05-08 10:13:09 发布

ccj_zj

最新推荐文章于 2024-05-08 10:13:09 发布

阅读量2.8w

点赞数 9

分类专栏： Machine Learning

Machine Learning 专栏收录该内容

14 篇文章 1 订阅

订阅专栏

熵的本质是香农信息量( $log\frac{1}{p}$ )的期望。

现有关于样本集的2个概率分布p和q，其中p为真实分布，q非真实分布。按照真实分布p来衡量识别一个样本的所需要的编码长度的期望(即平均编码长度)为：H(p)= $\sum_{i}^{} p(i)*log\frac{1}{p(i)}$ 。如果使用错误分布q来表示来自真实分布p的平均编码长度，则应该是：H(p,q)= $\sum_{i}^{} p(i)*log\frac{1}{q(i)}$ 。因为用q来编码的样本来自分布p，所以期望H(p,q)中概率是p(i)。H(p,q)我们称之为“交叉熵”。

比如含有4个字母(A,B,C,D)的数据集中，真实分布p=(1/2, 1/2, 0, 0)，即A和B出现的概率均为1/2，C和D出现的概率都为0。计算H(p)为1，即只需要1位编码即可识别A和B。如果使用分布Q=(1/4, 1/4, 1/4, 1/4)来编码则得到H(p,q)=2，即需要2位编码来识别A和B(当然还有C和D，尽管C和D并不会出现，因为真实分布p中C和D出现的概率为0，这里就钦定概率为0的事件不会发生啦)。

可以看到上例中根据非真实分布q得到的平均编码长度H(p,q)大于根据真实分布p得到的平均编码长度H(p)。事实上，根据Gibbs' inequality可知，H(p,q)>=H(p)恒成立，当q为真实分布p时取等号。我们将由q得到的平均编码长度比由p得到的平均编码长度多出的bit数称为“相对熵”：D(p||q)=H(p,q)-H(p)= $\sum_{i}^{} p(i)*log\frac{p(i)}{q(i)}$ ，其又被称为KL散度(Kullback–Leibler divergence，KLD) Kullback–Leibler divergence。它表示2个函数或概率分布的差异性：差异越大则相对熵越大，差异越小则相对熵越小，特别地，若2者相同则熵为0。

交叉熵可在神经网络(机器学习)中作为损失函数，p表示真实标记的分布，q则为训练后的模型的预测标记分布，交叉熵损失函数可以衡量p与q的相似性。

交叉熵作为损失函数还有一个好处是使用sigmoid函数在梯度下降时能避免均方误差损失函数学习速率降低的问题，因为学习速率可以被输出的误差所控制。

单次观测下的多项式分布

$f_{multinomial}(x ; p) = \prod \limits _{i=1}^C p_i^{xi}$

其中，C代表类别数。p代表向量形式的模型参数，即各个类别的发生概率，如p=[0.1, 0.1, 0.7, 0.1]，则p1=0.1, p3=0.7等。即，多项式分布的模型参数就是各个类别的发生概率！x代表one-hot形式的观测值，如x=类别3，则x=[0, 0, 1, 0]。xi代表x的第i个元素，比如x=类别3时，x1=0，x2=0，x3=1，x4=0。

机器学习model对某个样本的输出，就代表各个类别发生的概率。但是，对于当前这一个样本而言，它肯定只能有一个类别，所以这一个样本就可以看成是一次实验（观察），而这次实验（观察）的结果要服从上述各个类别发生的概率，那不就是服从多项式分布嘛！而且是单次观察！各个类别发生的概率predict当然就是这个多项式分布的参数阿。

对于多类分类问题，似然函数就是衡量当前这个以predict为参数的单次观测下的多项式分布模型与样本值label之间的似然度。

所以，根据似然函数的定义，单个样本的似然函数即：

$L=f_{multinomial}(label ; predict)$

所以，整个样本集（或者一个batch）的似然函数即：

$L = \frac{1}{n} \sum\limits _X f_{multinomial}(label ; predict) = \frac{1}{n} \sum\limits _X \prod \limits _{i=1}^C predict(i)^{label(i)}$

而由于式子里有累乘运算，所以习惯性的加个log函数来将累乘化成累加以提高运算速度（虽然对于每个样本来说只有一个类别，但是哪怕是算0.2^0也是算了一遍指数函数啊，计算机可不会直接口算出1）。所以在累乘号前面加上log函数后，就成了所谓的对数似然函数：

$L = \frac{1}{n} \sum\limits _{X} \sum_{i=1}^C label(i)\log (predict(i))$

而最大化对数似然函数就等效于最小化负对数似然函数，所以前面加个负号后不就是我们平常照着敲的公式嘛。。。

而这个形式跟交叉熵的形式是一模一样的：

$H(X,q) = -\sum_xp(x)\log q(x)$

这里X的分布模型即样本集label的真实分布模型，这里模型q(x)即想要模拟真实分布模型的机器学习模型。可以说交叉熵是直接衡量两个分布，或者说两个model之间的差异。而似然函数则是解释以model的输出为参数的某分布模型对样本集的解释程度。因此，可以说这两者是“同貌不同源”，但是“殊途同归”啦。

ccj_zj

关注

9
点赞
踩
26

收藏

觉得还不错? 一键收藏
3
评论
多分类问题中的交叉熵

熵的本质是香农信息量()的期望。现有关于样本集的2个概率分布p和q，其中p为真实分布，q非真实分布。按照真实分布p来衡量识别一个样本的所需要的编码长度的期望(即平均编码长度)为：H(p)=。如果使用错误分布q来表示来自真实分布p的平均编码长度，则应该是：H(p,q)=。因为用q来编码的样本来自分布p，所以期望H(p,q)中概率是p(i)。H(p,q)我们称之为“交叉熵”。比如含有4个字母(
复制链接

扫一扫