动手学深度学习Pytorch（二）——softmax回归

最新推荐文章于 2023-01-04 23:10:14 发布

冠long馨

最新推荐文章于 2023-01-04 23:10:14 发布

阅读量936

点赞数

分类专栏：深度学习文章标签：深度学习 pytorch 回归

本文链接：https://blog.csdn.net/koulongxin123/article/details/123146351

版权

深度学习专栏收录该内容

8 篇文章 5 订阅

订阅专栏

文章目录

1. 参考资料
2. softmax回归
- 2.1 特点
- 2.2 回归步骤
3. 损失函数

1. 参考资料

[1] 动手学深度学习 v2 - 从零开始介绍深度学习算法和代码实现
课程主页：https://courses.d2l.ai/zh-v2/
教材：https://zh-v2.d2l.ai/
[2] 李沐老师B站视频：https://www.bilibili.com/video/BV1K64y1Q7wu?spm_id_from=333.999.0.0

2. softmax回归

2.1 特点

通常多个输出，是一个多分类模型
输出i是预测i类的概率
使用交叉熵衡量预测和标号的区别
尽管softmax是一个非线性函数，但softmax回归仍然为线性回归

2.2 回归步骤

对类别进行有效编码：独热编码（one-hot encoding）
使用均方损失训练
最大值作为预测值：
$\arg \max_i \hat{y_i} = \arg \max_i o_i$
需要更置信的识别正确类（大余量）：
$o_y - o_i >\Delta(y,i)$
输出匹配概率（非负，和为1）
$\hat{y} = softmax(o) \\ \hat{y_i} = \frac{\exp(o_i)}{\sum_k \exp(o_k)}$
交叉熵用来衡量两个概率的区别， $H(p,q)=\sum_i -p_ilog(q_i)$
把交叉熵作为损失可得：
$l(y,\hat{y})=-\sum_i^q y_ilog(\hat{y_i})=-\sum_i^q y_i \log \frac{\exp(o_i)}{\sum_{k=1}^q \exp(o_k)} \\ =\log \sum_{k=1}^q \exp(o_k) - \sum_{i=1}^q y_i o_j$
梯度是真实概率和预测概率的区别：
$\partial l(y,\hat{y}) = \frac{\exp(o_j)}{\sum_{k=1}^q \exp(o_k)}-y_j\\ = softmax(o_j)-y_j$

理解：
（1）我们希望输出的 $\hat{y_j}$ 可以作为类j的概率，然后选择具有最大输出值的类别。
（2）要将输出视为概率，我们必须保证在任何数据上的输出都是非负的且总和为1。所以未规范化的预测 $o_i$ 不能作为输出概率。
（3）softmax函数将未规范化的预测变换为非负并且总和为1，同时要求模型保持可导。
$\hat{y} = softmax(o),\ \hat{y_j}=\frac{\exp(o_j)}{\sum_k \exp(o_k)}$

由于softmax运算不会改变预测o之间的顺序，因此在预测过程中我们仍然可以用下式选择最有可能的类别：
$\arg \max_i \hat{y_i} = \arg \max_i o_i$

（4）现在，我们将使用最大似然估计来度量预测的效果。
$\prod_{i=1}^n P(y^i|x^i)$

根据最大似然估计，我们最大化P(Y|X)相当于最小化负对数似然：
$-\log P(Y|X) = \sum_{i=1}^n l(y^i,\hat{y^i}) \\ l(y^i,\hat{y^i}) = -\sum_{j=1}^q y_j \log \hat{y_j}$

3. 损失函数

3.1 L2 Loss

定义
$l(y,y')=\frac{1}{2}(y-y')^2$

3.2 L1 Loss

定义
$l (y, y^{'}) = ∣ y - y^{'} ∣$

3.3 Huber’s Robust Loss

定义
$l(y,y')=\begin{cases} |y-y'|-\frac{1}{2}, & if \ |y-y'| >1 \\ \frac{1}{2}(y-y')^2, & otherwise \end{cases}$

3.4 交叉熵损失

定义
$H(p,q)=\sum_i -p_i \log(q_i)$

可以理解为“主观概率为Q的观察者看到由概率P生成的数据时的预期惊异”。当 $P = Q$ 时，交叉熵达到最低。

最大化观测数据的似然
最小化传达标签所需的惊异

熵
数据中的信息内容被称为分布P的熵
$\sum_j -P(j) \log P(j)$

惊异
当我们不能完全预测每一个事件时，就会感到惊异。
$-\log P(j)$

我们观察一个事件j时，当我们赋予j发生的概率低时，我们的惊异会更大。

冠long馨

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
动手学深度学习Pytorch（二）——softmax回归

文章目录1. 参考资料2. softmax回归2.1 特点2.2 回归步骤3. 损失函数3.1 L2 Loss3.2 L1 Loss3.3 Huber's Robust Loss3.4 交叉熵损失1. 参考资料[1] 动手学深度学习 v2 - 从零开始介绍深度学习算法和代码实现课程主页：https://courses.d2l.ai/zh-v2/教材：https://zh-v2.d2l.ai/[2] 李沐老师B站视频：https://www.bilibili.com/video/BV1K64y1Q7
复制链接

扫一扫