Logistic Regression逻辑回归的损失函数与梯度下降训练

最新推荐文章于 2024-07-22 10:08:20 发布

阿拉丁吃米粉

最新推荐文章于 2024-07-22 10:08:20 发布

阅读量6.9k

点赞数 5

文章标签：逻辑回归梯度下降 logistic regression 对数损失函数

本文链接：https://blog.csdn.net/jinping_shi/article/details/87909567

版权

本文深入探讨了逻辑回归的损失函数，包括对数损失函数的直观意义及其与极大似然估计的关系。同时，介绍了梯度下降法在训练逻辑回归模型中的应用，包括批量梯度下降（BGD）、随机梯度下降（SGD）和小批量梯度下降（MBGD）的原理和区别。通过对损失函数的求导，推导出参数的更新规则，以优化模型的性能。

摘要由CSDN通过智能技术生成

有一篇博文提到logistic regression的简单理解（Logistic Regression逻辑回归的简单解释）。逻辑回归实际上是odds取对数后的反函数，其函数形式也称为sigmoid function，sigmoid的原义为『像S的形状』。文中最后给出了逻辑回归的表达式：

$h(\alpha) = \frac{1}{1+e^{-\alpha}}$

因为 $h(\alpha)$ 的定义域是全体实数 $\boldsymbol{R}$ ， $\alpha$ 可以用任意函数来代替，一般使用线性函数： $\alpha(\boldsymbol{\theta}, \boldsymbol{x}) = \theta_0 x_0 + \theta_1 x_1 + ... + \theta_n x_n$ 。

为了方便叙述，改写一下符号：

$h_{\boldsymbol{\theta}}(\boldsymbol{x}) = g(\boldsymbol{\theta}^T \boldsymbol{x}) = \frac{1}{1+e^{-\boldsymbol{\theta}^T \boldsymbol{x}}} \tag{1}$

其中粗体 $\boldsymbol{x}$ 是已知的数据（样本，输入），粗体 $\boldsymbol{\theta}^T$ 是参数。机器学习即通过已知样本 $\boldsymbol{x}$ 和对应的label $\boldsymbol{y}$ 来求解（估计）参数 $\boldsymbol{\theta}^T$ 。

损失函数

逻辑回归使用对数损失函数：

$-\log(P(Y|X))$

对数损失函数直接看函数形式不是很直观，毕竟其它损失函数都可以直接从形式上看出『预测时与真实值之间的差异』这样的含义（绝对值损失，平方差损失等），对数损失函数第一眼难以看到这样的含义。

实际上对数损失函数来源于极大似然估计。 $P (Y ∣ X)$ 的意思是在样本已知（即 $X$ ）的情况下，分类正确（类别为 $Y$ ）的概率。 $P (Y ∣ X)$ 越大表示被正确分类的概率越大，取对数再取反那就是最小，符合损失函数的定义。通俗来讲，一堆参数在一堆数据下的似然值，就是每一条数据（每一条样本）在这一组参数下的条件概率之积，取个对数变成条件概率之和，再取个负号求反就得到了对数损失函数。