李宏毅机器学习-4

最新推荐文章于 2023-05-13 21:27:35 发布

浪中求稳

最新推荐文章于 2023-05-13 21:27:35 发布

阅读量341

点赞数

分类专栏：笔记文章标签：李宏毅机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/titing3539/article/details/90709398

版权

这篇博客详细介绍了LR（逻辑回归）的损失函数和梯度下降，解释了为什么要使用Softmax进行概率输出，并探讨了Softmax损失函数及其梯度下降过程，以及选择交叉熵函数的原因。

摘要由CSDN通过智能技术生成

李宏毅机器学习-4

1、LR损失函数和梯度下降

在这里插入图片描述
一般线性函数的损失函数是平方损失函数，LR求最大似然估计是因为sigmoid函数求导后无法保证是凸函数，在优化的过程中可能得到的是局部最小值，而非全局最优。取对数是方便求导。

损失函数除以m这一因子并不改变最终求导极值结果，通过除以m可以得到平均损失值，避免样本数量对于损失值的影响。

2、Softmax原理

顾名思义，softmax由两个单词组成，其中一个是max。对于max我们都很熟悉，比如有两个变量a，b。如果a>b，则max为a，反之为b。
另一个单词是soft。max存在的一个问题是什么呢？如果将max看成一个分类问题，就是非黑即白，最后的输出是一个确定的变量。更多的时候，我们希望输出的是取到某个分类的概率，或者说我们希望分值大的那一项被经常取到，而分值较小的那一项也有一定的概率被取到，所以我们就应用到了soft的概念，即最后的输出是每个分类被取到的概率。下面的图就很容易理解Softmax原理：

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。