逻辑回归为什么使用对数损失函数

最新推荐文章于 2024-10-18 12:27:51 发布

saltriver

最新推荐文章于 2024-10-18 12:27:51 发布

阅读量2.8w

点赞数 6

分类专栏：机器学习文章标签：逻辑回归对数损失函数

本文链接：https://blog.csdn.net/saltriver/article/details/63683092

版权

机器学习专栏收录该内容

22 篇文章

订阅专栏

本文详细介绍了逻辑回归模型的构建过程，并解释了如何利用极大似然估计方法求解模型参数。通过伯努利分布定义似然函数，并进一步推导出对数似然函数，最终说明对数损失函数与极大似然估计之间的等价性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在前面介绍的《逻辑回归是个什么逻辑》中，我们构建的逻辑回归模型是：

P (y = 1 | x; θ) = 1 1 + e - θ T x

$P(y = 1|x;\theta ) = \frac{1}{{1 + {e^{ - {\theta ^T}x}}}}$
在模型的数学形式确定后，剩下的就是如何去求解模型中的参数

θ $\theta$ 。而在已知模型和一定样本的情况下，估计模型的参数，在统计学中常用的是极大似然估计方法。即找到一组参数

θ $\theta$ ，使得在这组参数下，样本数据的似然度（概率）最大。对于极大似然估计，可以参考下前期文章《极大似然估计》。

对于逻辑回归模型，假定的概率分布是伯努利分布，根据伯努利分布的定义，其概率质量函数PMF为：

P (X = n) = {1 - p n = 0 p n = 1

$P(X = n) = \left\{ \begin{array}{l} 1 - p\;\;\;\;n = 0\\ p\;\;\;\;\;\;\;\;n = 1 \end{array} \right.$
所以，似然函数可以写成：

L (θ) = \prod i = 1 m P (y = 1 | x i) y i P (y = 0 | x i) 1 - y i

$L(\theta ) = \prod\limits_{i = 1}^m {P{{(y = 1|{x_i})}^{{y_i}}}P{{(y = 0|{x_i})}^{1 - {y_i}}}}$
对数似然函数则为：

ln L (θ) = \sum i = 1 m [y i ln P (y = 1 | x i) + (1 - y i) ln P (y = 0 | x i)]

$\ln L(\theta ) = \sum\limits_{i = 1}^m {[{y_i}\ln P(y = 1|{x_i}) + (1 - {y_i})\ln P(y = 0|{x_i})} ]$

ln L (θ) = \sum i = 1 m [y i ln P (y = 1 | x i) + (1 - y i) ln (1 - P (y = 1 | x i))]

$\ln L(\theta ) = \sum\limits_{i = 1}^m {[{y_i}\ln P(y = 1|{x_i}) + (1 - {y_i})\ln (1 - P(y = 1|{x_i}))} ]$
而在机器学习领域，我们经常使用损失函数（loss function,或称为代价函数，cost function）来衡量模型预测的好坏。常用的有0-1损失，平方损失，绝对损失，对数损失等。其中对数损失在单个数据点上的定义为：

cos t (y, p (y | x)) = - y ln p (y | x) - (1 - y) ln (1 - p (y | x))

$\cos t(y,p(y|x)) = - y\ln p(y|x) - (1 - y)\ln (1 - p(y|x))$
全体样本的损失函数则可表达为：

cos t (y, p (y | x)) = - \sum i = 1 m [y i ln p (y i | x i) + (1 - y i) ln (1 - p (y i | x i))]

$\cos t(y,p(y|x)) = - \sum\limits_{i = 1}^m {[{y_i}\ln p({y_i}|{x_i}) + (1 - {y_i})\ln (1 - p({y_i}|{x_i}))} ]$
可以看到，这个对数损失函数与上面的极大似然估计的对数似然函数本质上是等价的。所以逻辑回归直接采用对数损失函数来求参数，实际上与采用极大似然估计来求参数是一致的。