交叉熵代价函数(损失函数)及其求导推导

最新推荐文章于 2024-01-27 14:56:10 发布

forward&forever

最新推荐文章于 2024-01-27 14:56:10 发布

阅读量689

点赞数

分类专栏：机器学习优化模型

机器学习优化模型专栏收录该内容

19 篇文章 0 订阅

订阅专栏

本文只讨论Logistic回归的交叉熵，对Softmax回归的交叉熵类似。
首先，我们二话不说，先放出交叉熵的公式：

J (θ) = - 1 m \sum i = 1 m y (i) log (h θ (x (i))) + (1 - y (i)) log (1 - h θ (x (i))),

以及 J(θ)对参数 θ的偏导数（用于诸如梯度下降法等优化算法的参数更新），如下：

\partial \partial θ j J (θ) = 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j

但是在大多论文或数教程中，也就是直接给出了上面两个公式，而未给出推导过程，而且这一过程并不是一两步就可以得到的，这就给初学者造成了一定的困惑，所以我特意在此详细介绍了它的推导过程，跟大家分享。因水平有限，如有错误，欢迎指正。

交叉熵损失函数

我们一共有m组已知样本，(x(i),y(i))

表示第 i 组数据及其对应的类别标记。其中 x(i)=(1,x(i)1,x(i)2,...,x(i)p)T为p+1维向量（考虑偏置项）， y(i)

则为表示类别的一个数：

logistic回归（是非问题）中，y(i)

取0或者1； softmax回归（多分类问题）中， y(i)

取1,2…k中的一个表示类别标号的一个数（假设共有k类）。

这里，只讨论logistic回归，输入样本数据x(i)=(1,x(i)1,x(i)2,...,x(i)p)T

，模型的参数为 θ=(θ0,θ1,θ2,...,θp)T

,因此有

θ T x (i) : = θ 0 + θ 1 x (i) 1 + \dots + θ p x (i) p .

假设函数（hypothesis function）定义为：

h θ (x (i)) = 1 1 + e - θ T x ( i )

.
因为Logistic回归问题就是0/1的二分类问题，可以有

P (y^(i) = 1 | x (i); θ) = h θ (x (i))

P (y^(i) = 0 | x (i); θ) = 1 - h θ (x (i))

现在，我们不考虑“熵”的概念，根据下面的说明，从简单直观角度理解，就可以得到我们想要的损失函数：我们将概率取对数，其单调性不变，有

log P (y^(i) = 1 | x (i); θ) = log h θ (x (i)) = log 1 1 + e - θ T x ( i ),

log P (y^(i) = 0 | x (i); θ) = log (1 - h θ (x (i))) = log e - θ T x ( i ) 1 + e - θ T x ( i ) .

那么对于第 i组样本，假设函数表征正确的组合对数概率为：

I{y(i)=1}logP(y^(i)=1|x(i);θ)+I{y(i)=0}logP(y^(i)=0|x(i);θ)=y(i)logP(y^(i)=1|x(i);θ)+(1−y(i))logP(y^(i)=0|x(i);θ)=y(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i)))

其中， I{y(i)=1}和 I{y(i)=0}为示性函数（indicative function），简单理解为{ }内条件成立时，取1，否则取0，这里不赘言。
那么对于一共 m组样本，我们就可以得到模型对于整体训练样本的表现能力：

\sum i = 1 m y (i) log (h θ (x (i))) + (1 - y (i)) log (1 - h θ (x (i)))

由以上表征正确的概率含义可知，我们希望其值越大，模型对数据的表达能力越好。而我们在参数更新或衡量模型优劣时是需要一个能充分反映模型表现误差的损失函数（Loss function）或者代价函数（Cost function）的，而且我们希望损失函数越小越好。由这两个矛盾，那么我们不妨领代价函数为上述组合对数概率的相反数：

J (θ) = - 1 m \sum i = 1 m y (i) log (h θ (x (i))) + (1 - y (i)) log (1 - h θ (x (i)))

上式即为大名鼎鼎的交叉熵损失函数。(说明：如果熟悉“ 信息熵“的概念 E[−logpi]=−∑mi=1pilogpi，那么可以有助理解叉熵损失函数）

交叉熵损失函数的求导

这步需要用到一些简单的对数运算公式，这里先以编号形式给出，下面推导过程中使用特意说明时都会在该步骤下脚标标出相应的公式编号，以保证推导的连贯性。
① logab=loga−logb

② loga+logb=log(ab)
③ a=logea

另外，值得一提的是在这里涉及的求导均为矩阵、向量的导数（矩阵微商），这里有一篇教程总结得精简又全面，非常棒，推荐给需要的同学。
下面开始推导：
交叉熵损失函数为：

J (θ) = - 1 m \sum i = 1 m y (i) log (h θ (x (i))) + (1 - y (i)) log (1 - h θ (x (i)))

其中，

log h θ (x (i)) = log 1 1 + e - θ T x ( i ) = - log (1 + e - θ T x (i)), log (1 - h θ (x (i))) = log (1 - 1 1 + e - θ T x ( i )) = log (e - θ T x ( i ) 1 + e - θ T x ( i )) = log (e - θ T x (i)) - log (1 + e - θ T x (i)) = - θ T x (i) - log (1 + e - θ T x (i)) ① ③ .

由此，得到

J (θ) = - 1 m \sum i = 1 m [- y (i) (log (1 + e - θ T x (i))) + (1 - y (i)) (- θ T x (i) - log (1 + e - θ T x (i)))] = - 1 m \sum i = 1 m [y (i) θ T x (i) - θ T x (i) - log (1 + e - θ T x (i))] = - 1 m \sum i = 1 m [y (i) θ T x (i) - log e θ T x (i) - log (1 + e - θ T x (i))] ③ = - 1 m \sum i = 1 m [y (i) θ T x (i) - (log e θ T x (i) + log (1 + e - θ T x (i)))] ② = - 1 m \sum i = 1 m [y (i) θ T x (i) - log (1 + e θ T x (i))]

这次再计算 J(θ)对第 j个参数分量 θj求偏导:

\partial \partial θ j J (θ) = \partial \partial θ j (1 m \sum i = 1 m [log (1 + e θ T x (i)) - y (i) θ T x (i)]) = 1 m \sum i = 1 m [\partial \partial θ j log (1 + e θ T x (i)) - \partial \partial θ j (y (i) θ T x (i))] = 1 m \sum i = 1 m ⎛ ⎝ x ( i ) j e θ T x ( i ) 1 + e θ T x ( i ) - y (i) x (i) j ⎞ ⎠ = 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j

这就是交叉熵对参数的导数：

\partial \partial θ j J (θ) = 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j

forward&forever

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
交叉熵代价函数(损失函数)及其求导推导

本文只讨论Logistic回归的交叉熵，对Softmax回归的交叉熵类似。首先，我们二话不说，先放出交叉熵的公式： J(θ)=−1m∑i=1my(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i))), 以及J(θ)对参数θ的偏导数（用于诸如梯度下降法等优化算法的参数更新），如下： ∂∂θjJ(θ)=1m∑i=1m(hθ(x(i))−y(i))x(i)j 但是在大多论文或...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。