从logistic regression到利用softmax解决分类任务

最新推荐文章于 2023-07-28 11:33:14 发布

梅路艾姆#5122x

最新推荐文章于 2023-07-28 11:33:14 发布

阅读量177

点赞数

分类专栏： python machine learning

本文链接：https://blog.csdn.net/qq_36299801/article/details/95202676

版权

本文探讨了逻辑回归在二分类问题中的应用，解释了非线性函数的重要性，以及损失函数与极大似然估计的关系。随后，介绍了softmax函数及其在多分类任务中的推导过程，分析了参数更新的方法，并提到了数值稳定性和初始化策略。最后，提供了核心代码和参考资料。

摘要由CSDN通过智能技术生成

Logistic Regression

非线性函数的提出

对于二分类问题，给定特征向量 $X$ ，希望对它的类别进行预测，记预测值为 $\hat{y}$ ，真实值 $y = 0$ 或 $1$ ，产生预测值的一种简单方法是做线性回归
$\hat{y} = \theta^Tx + b$
然而，这对于二分类来说并不是一个好的做法，因为如果想让 $\hat{y}$ 表示实际值 $y$ 等于1的几率的话， $\hat{y}$ 的值应该在0到1之间,可是 $w^Tx + b$ 的值可能比 $1$ 要大得多，或者出现负值。因此，我们考虑将线性函数转换为非线性函数。
$\frac{1}{1 + e^{-y}}$
在这里插入图片描述

从函数图像上，可以看出，这个函数可以将函数值映射到区间 $[0, 1]$ 上。

损失函数与极大似然估计的关系

损失函数为
$L(\hat{y}, y) = -y\log(\hat{y}) - (1-y)\log(1 - \hat{y})$
直观的理解，当 $y = 1$ 时，损失函数 $-\log(\hat{y})$ ，如果想要让损失函数 $L$ 尽可能小，那么 $\hat{y}$ 要尽可能大。当 $y = 0$ 时， $-\log(1 - \hat{y})$ ， $\hat{y}$ 要尽可能小。因此，这个函数适合作为分类问题的损失函数。

从概率论的角度上看，记
$\hat{y} = p(y = 1|x)$
则有
$\hat{y} = p(y=0|x)$
结合上面两条式子，有
$\hat{y}^y (1 - \hat{y})^{(1-y)}$
根据极大似然估计，我们需要最大化 $p (y ∣ x)$ 。
$\begin{aligned} &\text{maximize} ~~~~~p(y|x)\\ \Leftrightarrow ~~ &\text{maximize} ~~~~~\log(p(y|x))\\ \Leftrightarrow ~~ &\text{maximize} ~~~~~ y\log\hat{y} + (1-y)\log(1-\hat{y}) \\ \Leftrightarrow ~~ &\text{minimize} ~~~~~ -y\log\hat{y} - (1-y)\log(1-\hat{y}) = L(\hat{y},y) \end{aligned}$

最低0.47元/天解锁文章

梅路艾姆#5122x

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
从logistic regression到利用softmax解决分类任务

文章目录Logistic Regression非线性函数的提出损失函数与极大似然估计的关系逻辑回归的参数更新softmax推导过程softmax 函数的一些细节核心代码完整代码参考资料Logistic Regression非线性函数的提出对于二分类问题，给定特征向量XXX，希望对它的类别进行预测，记预测值为y^\hat{y}y^，真实值 y=0y = 0y=0 或 111 ，产生预测值的一...
复制链接

扫一扫

专栏目录