机器学习：二元逻辑回归的损失函数

最新推荐文章于 2023-09-09 16:46:51 发布

Zen of Data Analysis

最新推荐文章于 2023-09-09 16:46:51 发布

阅读量1.5k

点赞数

分类专栏：机器学习算法统计文章标签：机器学习算法统计损失函数二元逻辑回归

本文链接：https://blog.csdn.net/gracejpw/article/details/102527304

版权

本文介绍了损失函数在机器学习中的作用，特别是它如何衡量二元逻辑回归模型在训练数据上的拟合程度。通过损失函数的数学推导，展示了如何从极大似然估计出发得到逻辑回归的损失函数，以及最小化该损失函数如何实现模型的最优拟合。同时，文章还探讨了过拟合问题及正则化在逻辑回归中的应用。

摘要由CSDN通过智能技术生成

损失函数的概念

在学习决策树时，曾经提到过两种模型表现：在训练集上的表现，和在测试集上的表现。建模，是追求模型在测试集上的表现最优，因此模型的评估指标往往是用来衡量模型在测试集上的表现的。然而，逻辑回归有着基于训练数据求解参数的需求，并且希望训练出来的模型能够尽可能地拟合训练数据，即模型在训练集上的预测准确率越靠近100%越好。
因此，**使用”损失函数“这个评估指标，来衡量参数为的模型拟合训练集时产生的信息损失的大小，并以此衡量参数的优劣。**如果用一组参数建模后，模型在训练集上表现良好，就说模型拟合过程中的损失很小，损失函数的值很小，这一组参数就优秀；相反，如果模型在训练集上表现糟糕，损失函数就会很大，模型就训练不足，效果较差，这一组参数也就比较差。即是说，在求解参数时，追求损失函数最小，让模型在训练数据上的拟合效果最优，即预测准确率尽量靠近100%。

损失函数

衡量参数的优劣的评估指标，用来求解最优参数的工具
损失函数小，模型在训练集上表现优异，拟合充分，参数优秀
损失函数大，模型在训练集上表现差劲，拟合不足，参数糟糕
我们追求，能够让损失函数最小化的参数组合
注意：没有”求解参数“需求的模型没有损失函数，比如KNN，决策树
逻辑回归的损失函数是由极大似然估计推导出来的，具体结果可以写作：
$J(\omega)=-\sum^m_{i=1}(y_i*log(y_\omega(x_i))+(1-y_i)*log(1-y_\omega(x_i)))$
其中， ω表示求解出来的一组参数，m是样本的个数， $y_i$ 是样本i上真实的标签， $y_\omega(x_i)$ 是样本i上，基于参数ω计算出来的逻辑回归返回值，x_i是样本i各个特征的取值。我们的目标，就是求解出使J(ω)最小的ω取值。注意，在逻辑回归的本质函数y(x)里，特征矩阵x是自变量，参数是ω。但在损失函数中，ω是损失函数的自变量，x和y都是已知的特征矩阵和标签，相当于是损失函数的参数。不同的函数中，自变量和参数各有不同，因此，需要在数学计算中，尤其是求导的时候避免混淆。
由于追求损失函数的最小值，让模型在训练集上表现最优，可能会引发另一个问题：如果模型在训练集上表示优秀，却在测试集上表现糟糕，模型就会过拟合。虽然逻辑回归和线性回归是天生欠拟合的模型，但还是需要控制过拟合的技术来帮助调整模型，对逻辑回归中过拟合的控制，通过正则化来实现。

二元逻辑回归损失函数的数学解释，公式推导

虽然我们质疑过”逻辑回归返回概率“这样的说法，但不可否认逻辑回归的整个理论基础都是建立在这样的理解上的。在这里，基于极大似然法来推导⼆二元逻辑回归的损失函数，这个推导过程能够帮助我们了解损失函数怎么得来的，以及为什么J(ω)的最小化能够实现模型在训练集上的拟合最好。
我们的目标：让模型对训练数据的效果好，追求损失最小。
二元逻辑回归的标签服从伯努利利分布(即0-1分布)，因此，可以将一个特征向量为x，参数为ω的模型中的一个样本i的预测情况表现为如下形式：
样本i在由特征向量x_i和参数ω组成的预测函数中，样本标签被预测为1的概率为：
$P_1=P(\hat{y}_i)=1|x_i,\omega)=y_{\omega}(x_i)$