逻辑回归损失函数通常是凸函数（附平方差损失的非凸证明以及交叉熵损失函数求导）

小由之

已于 2022-03-08 15:08:38 修改

阅读量7.1k

点赞数 10

分类专栏：机器学习文章标签：机器学习深度学习

于 2020-05-09 14:48:22 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42486139/article/details/106018410

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Q：为什么逻辑回归损失函数往往要求是凸函数？（此处凸函数是指下凸，国内和国外凸函数的标准不一样，是相反的，吴恩达的机器学习课程凸函数是指下凸）

A：如果损失函数是非凸的，使用梯度下降法优化时，最后得到的可能只是局部最优解，而非全局最优解。

--------------------------------------------------------------------------------------------------------------------------------

平方差损失非凸证明

做优化时，最容易想到的loss function便是平方差损失： $(y-\hat{y})^{2}$ ，看起来是可行的，但实际并非如此，因为平方差损失是非凸函数。

证明函数的非凸性只要证明这个函数的二阶导不恒>0

先验条件：线性拟合函数 z = wx + b ，二分类问题z值需要归一化到[0，1]，即使用sigmoid激活函数 $\large \delta (z) =\frac{1}{1+e^{-z}}$ ( $\delta (z)$ 即 $\hat{y}$ ）

平方差损失函数: $\large L=(y-\delta (z))^{2}$

以对权重求偏导举例

，所以后三项乘积恒>=0。只需要判断

y的范围为[0,1]，假设y=0，上式满足>0的条件为 $\large \delta (z)$ <2/3 ,所以当 $\large \delta (z)$ >2/3时，二阶导为负值，不满足凸函数的性质。

常用logistic损失函数： $\large L=-(ylog\hat{y}+(1-y)log(1-\hat{y}))$

手推了一下，w的二阶偏导为（此处log我是以2为底计算导数，吴恩达的视频中log相当于ln，以e为底，不要在意这些细节hhh），显而易见，二阶导恒大于0。（补充知识点：）

通俗易懂地举例验证一下此损失函数的可行性，假设y=1, 损失函数只剩第一项 $\large -log\hat{y}$ ，使这一项尽可能小，那么 $\large {\hat{y}}$ 尽可能大，而 $\large \hat{y}$ 是经sigmoid激活的函数，范围为0-1， $\large \hat{y}$ 只能无限接近1。即真实值为1时，预测值也要无限接近1，loss function才会尽可能地小。

贴一张以e为底的交叉熵损失函数手写求导图

题外话：csdn自带的公式编辑器太难用了，用office编辑再复制过来公式看起来很假，所以各位大佬们都是怎么编辑公式的==

关注

10
点赞
踩
40

收藏

觉得还不错? 一键收藏
2
评论
逻辑回归损失函数通常是凸函数（附平方差损失的非凸证明以及交叉熵损失函数求导）

Q：为什么深度学习损失函数往往要求是凸函数？（此处凸函数是指下凸，国内和国外凸函数的标准不一样，是相反的，吴恩达的机器学习教程凸函数是指下凸）A：使用梯度下降法优化策略，如果损失函数是非凸的，最后得到的可能只是局部最优解，而非全局最优解。做优化时，最容易想到的cost function便是平方差损失：。但是在实际中，并不能这样做，因为这个函数是非凸的。平方差损失非凸证明（多公式预警！！）先验条件：1.线性拟合函数 z = wx + b (此处z即...
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。