【动手学深度学习】02-softmax回归

管大虾

已于 2022-03-10 22:04:03 修改

阅读量2.8k

点赞数 1

分类专栏：动手学深度学习文章标签：回归深度学习机器学习

于 2022-03-10 22:03:34 首次发布

本文链接：https://blog.csdn.net/gdxdekx/article/details/123412737

版权

7 篇文章 3 订阅

订阅专栏

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yYcFQoNQ-1646920856537)(02-softmax-regression.assets/image-20220310211751726.png)]

输出i是预测为第i类的置信度。输出的个数等于类别的个数

n个类别，假设先用1,0表示是否类别正确。使用均方损失训练，最大值作为预测。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qxVBBon0-1646920856539)(02-softmax-regression.assets/image-20220310213648686.png)]

其实我们关心的不是他具体分类的置信度的值是多少。

关心的是是否可以把正确类别的置信度是否特别大，模型能够把真正的类别和其他的类别拉开一个距离，数学表达式为 $O_y - O_i >= \Delta(y,i)$

引入一个操作子softmax，输出匹配的概率，计算方式使用指数（可以得到非负数，然后和为1）

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cY3PEBb8-1646920856539)(02-softmax-regression.assets/image-20220310214458457.png)]

其中，求和时， $y_i$ 中只有真实的类的值才为1，其他的为0，所以损失函数写成 $-log\hat{y}_y$

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VJg0zRBr-1646920856540)(02-softmax-regression.assets/image-20220310214807037.png)]

我们不关心对于非正确类的预测值，我们只关心对于正确类的预测值

损失函数的梯度就是真实概率和预测概率的区别

$l(y,y^`)=\frac{1}{2}(y-y^`)^2$

蓝色为原函数（y取零），橙色为其导数，绿色为其对应的似然函数（统计学里面的）。可以看到里预测值和真实值差距越大，其梯度比较大，对参数的更新也就比较多。随着预测值慢慢靠近真实值，梯度慢慢变小。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-env5l9vq-1646920856540)(02-softmax-regression.assets/image-20220128210250970.png)]

$l(y,y^`)=|y-y^`|$

该函数的导数在不等于0的情况下都是常数，所以好处就是梯度不会随着预测值的变化而变化（同一个大区间内）。其坏处就是在0点处导数不可导，还有当跨区间时，导数会在-1和1二者之间变化

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZZ9Mvnl4-1646920856541)(02-softmax-regression.assets/image-20220128210917127.png)]

可以看做以上两种函数的结合，好处就是，当预测值和真实值相差较大时，梯度会以均匀的力度往回推，当相差比较小的时候，梯度会随着差距减小而慢慢变小，这就就能保障在优化末期的时候优化是比较平滑的，不会出现太多的数值问题。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-D4GGCGvt-1646920856542)(02-softmax-regression.assets/image-20220128211452297.png)]

(img-guWAujWx-1646920856543)(02-softmax-regression.assets/image-20220128211707812.png)]

关注