逻辑回归（logistic regression）损失函数（loss function）推导

亲亲Friends

已于 2024-08-07 09:53:57 修改

阅读量1.1w

点赞数 5

分类专栏：机器学习文章标签：逻辑回归损失函数推导

于 2021-04-09 13:03:35 首次发布

本文链接：https://blog.csdn.net/u014261408/article/details/115544478

版权

机器学习专栏收录该内容

7 篇文章

订阅专栏

本文详细介绍了二分类逻辑回归（Binary LR）的损失函数，包括Binary Cross Entropy和对数似然损失。通过推导证明了两种损失函数在形式上的等价性，展示了从Binary Cross Entropy到对数似然损失的转换过程，并强调了在推导中可以忽略常数对损失函数解的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

逻辑回归（logistic regression）

逻辑回归（LR）可以看做线性回归（linear regression）的拓展，二者的区别是：逻辑回归的结果为0或1，即分类；线性回归的结果是连续值，即回归¹。

Binary LR

本文重点在二分类逻辑回归，其一般形式为：
$\hat{y}=\sigma(z)=\sigma(\boldsymbol{x^T}\boldsymbol{w})\,.$
注意，这里 $\sigma(z)$ 是Sigmoid函数²：
$\sigma(z)=\frac{1}{1+e^{-z}}\,.$

Loss Function

对于分类问题，我们一般用交叉熵³（Cross Entropy）当损失函数。对于LR这种二分类问题，交叉熵简化为Binary Cross Entropy，即：

$\ell=-y\log(\hat{y})-(1-y)\log(1-\hat{y})\,.$

但是在阅读一些论文⁴时，我发现里面LR的损失函数是这样的：
$\ell=\log(1+e^{\boldsymbol{x^T}\boldsymbol{w}})-y\boldsymbol{x^T}\boldsymbol{w}\,.$
本以为这个文章用的不是Binary Cross Entropy，直到我在StackExchange⁵上看了一个回答，才发现这俩函数可以互相推导！我现在重新推一遍，给自己加深下印象，也方便以后查阅。

推导过程

主要参考这个页面⁶。

推导之前，先给出Sigmoid函数的一个性质，即 $\sigma(-z)=1-\sigma(z)$ ：
$\sigma(-z)=\frac{1}{1+e^{z}}=1-\frac{1}{1+e^{-z}}=\frac{e^{-z}}{1+e^{-z}}\,.$

为了阅读方便，我从Binary Cross Entropy的相反数推导，最后取负：
$-\ell=y\log\sigma(z)+(1-y)\log(1-\sigma(z)) \\ =y(\log\sigma(z)-\log\sigma(-z)) + \log\sigma(-z)\\ =y\log\frac{\sigma(z)}{\sigma(-z)}+ \log\sigma(-z)\\ =y\log\left(\frac{1+e^z}{1+e^{-z}}\right)+ \log\sigma(-z)\\ =y\log\left(\frac{e^z(e^{-z}+1)}{1+e^{-z}}\right)+ \log\sigma(-z)\\ =yz+ \log\sigma(-z)\\ =y\boldsymbol{x^T}\boldsymbol{w}-\log(1+e^z)\,.$
最后，取负，可得：
$\ell=\log(1+e^{\boldsymbol{x^T}\boldsymbol{w}})-y\boldsymbol{x^T}\boldsymbol{w}\,.$
证毕。

值得一提的是，上述推导中隐含了这一步 $log e^z=z$ ，但是交叉熵的 $\log$ 基底一般为2，所以更准确的推导应该是：
$\log_2e^z=\frac{\log_ee^z}{\log_e2}=\frac{z}{\log_e2}\,.$
公式中 $log_e2$ 只是一个简单的常数，我们在推导过程中可以直接省略，对损失函数的解不会产生影响。关于 $\log$ 的换底公式，请参考这篇文章⁷。