回归算法——Logistics回归、Log对数损失（交叉熵损失）

最新推荐文章于 2024-09-10 14:26:22 发布

Kevin照墨

最新推荐文章于 2024-09-10 14:26:22 发布

阅读量7k

点赞数 6

分类专栏：算法深度学习

本文链接：https://blog.csdn.net/JustKian/article/details/83117170

版权

本文详细介绍了Logistics回归算法，包括其通过Sigmoid函数进行概率估计的原理，以及模型如何进行预测分类。重点探讨了Log对数损失（交叉熵损失）的概念，解释了如何利用最大似然估计思想设计损失函数，并阐述了为什么这种损失函数能够起到错误分类的惩罚作用。此外，还介绍了交叉熵在多类别样本中的应用，以及在Logistics回归中如何体现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

回归算法——Logistics回归、Log对数损失、交叉熵损失

1.定义

Logistic算法是一个二分类算法，它通过Sigmoid函数，把函数值映射到0~1之间。其概率估计函数公式如下：
$\hat p_i=h_\theta(X_i)=\sigma(\theta^TX_i)$
其中 $\hat p_i$ 为样本 $X_i$ 的最终估计概率， $\theta$ 为回归模型的特征参数向量， $X_i$ 为某一样本，其中 $\sigma()$ 为Sigmoid函数。
$\sigma(t) = \frac{1}{1+e^{-t}}$
于是便有如下逻辑回归分类模型：
$\hat{Y_i} = \begin{cases} 0,\hat{p_i}<0.5\\ 1,\hat{p_i}\ge0.5 \end{cases}$
即当样本 $X_i$ 的预测概率小于0.5时，其预测分类为0；反之，其预测分类为1。我们也可以通过sigmoid函数知道，当 $\theta^TX_i<0$ 时，其预测分类为0； $\theta^TX_i\ge0$ 时其预测分类为1。

好了，既然我们知道Logistic模型是如何进行预测分类的了，那么接下来就讨论一下，我们要如何使模型更能准确的预测出样本分类，即我们如何调整模型的 $\theta$ 特征参数向量。于是我们就要引入损失函数的概念，即使用何种函数来定义本模型的好坏，并使用何种优化方式来使损失函数尽可能最小。

2.Log对数损失

Log对数损失, 即对数似然损失(Log-likelihood Loss), 也称逻辑斯谛回归损失(Logistic Loss)或交叉熵损失(cross-entropy Loss)，它是采取极大似然估计思想来进行设计的。下面就讲一下极大似然估计思想：

假设样本X服从某一分布（比如0-1分布），现在要做的是就是根据样本X估计该分布参数 $\theta$ 的值，直观上来讲，由于已知样本X，那么这个样本X的产生一定与未知的 $\theta$ 有关，既然已有样本X了，则认为 $\theta$ 的值应该是使 $p(X/\theta)$ 最大的那个值，于是有似然估计函数 $L(X,\theta)$ 最大化。