目录
- 前言
- 交叉熵损失函数
- 交叉熵损失函数的求导
前言
最近有遇到些同学找我讨论sigmoid训练多标签或者用在目标检测中的问题,我想写一些他们的东西,想到以前的博客里躺着这篇文章(2015年读研时机器学课的作业)感觉虽然不够严谨,但是很多地方还算直观,就先把它放过来吧。
说明: 本文只讨论Logistic回归的交叉熵,对Softmax回归的交叉熵类似(Logistic回归和Softmax回归两者本质是一样的,后面我会专门有一篇文章说明两者关系,先在这里挖个坑)。 首先,我们二话不说,先放出逻辑回归交叉熵的公式:
以及
但是在大多论文或数教程中,也就是直接给出了上面两个公式,而未给出推导过程,这就给初学者造成了一定的困惑。交叉熵的公式可以用多种解释得到,甚至不同领域也会有不同,比如数学系的用极大似然估计,信息工程系的的从信息编码角度,当然更多是联合KL散度来解释。但是我这里假设那些你都不了解的情况下如何用一个更加直白和直观的解释来得到Logistic Regression的交叉熵损失函数,说清楚它存在的合理性就可以解惑(关于交叉熵的所谓"正统"解释后续我会专门写一篇文章来总结,先挖个坑)。因水平有限,如有错误,欢迎指正。
废话不说,下文将介绍一步步得到Logistic Regression的交叉熵损失函数,并推导出其导数,同时给出简洁的向量形式及其导数推导过程。
交叉熵损失函数(Logistic Regression代价函数)
我们一共有
- logistic回归(是非问题)中,
取0或者1;
- softmax回归 (多分类问题)中,
取1,2...k中的一个表示类别标号的一个数(假设共有k类)。
这里,只讨论logistic回归,输入样本数据
二元问题中常用sigmoid作为假设函数(hypothesis function),定义为:
因为Logistic回归问题就是0/1的二分类问题,可以有
现在,我们不考虑“熵”的概念,根据下面的说明,从简单直观角度理解,就可以得到我们想要的损失函数:我们将概率取对数,其单调性不变,有
那么对于第
其中,
由以上表征正确的概率含义可知,我们希望其值越大,模型对数据的表达能力越好。而我们在参数更新或衡量模型优劣时是需要一个能充分反映模型表现误差的损失函数(Loss function)或者代价函数(Cost function)的,而且我们希望损失函数越小越好。由这两个矛盾,那么我们不妨领代价函数为上述组合对数概率的相反数:
上式即为大名鼎鼎的交叉熵损失函数。(说明:如果熟悉“信息熵"的概念
交叉熵损失函数的求导
这步需要用到一些简单的对数运算公式,这里先以编号形式给出,下面推导过程中使用特意说明时都会在该步骤下脚标标出相应的公式编号,以保证推导的连贯性。
①
②
③
另外,值得一提的是在这里涉及的求导均为矩阵、向量的导数(矩阵微商),这里有一篇教程总结得精简又全面,非常棒,推荐给需要的同学。
下面开始推导:
交叉熵损失函数为:
其中,
由此,得到
这次再计算
这就是交叉熵对参数的导数:
向量形式
前面都是元素表示的形式,只是写法不同,过程基本都是一样的,不过写成向量形式会更清晰,这样就会把
将
再对
转载请注明出处Jason Zhao的知乎专栏“人工+智能“,文章链接:
Jason Zhao:交叉熵损失函数的求导(Logistic回归)