Softmax回归的概念以及代码实现

调包调参侠

已于 2022-04-02 22:55:06 修改

阅读量303

点赞数 1

分类专栏：深度学习理论文章标签：深度学习分类机器学习算法

于 2022-04-02 22:42:05 首次发布

本文链接：https://blog.csdn.net/Andre_Jan/article/details/123930449

版权

深度学习理论专栏收录该内容

5 篇文章 0 订阅

订阅专栏

回归 vs 分类

回归估计是一个连续值
分类是预测一个离散类别

从回归到多类分类

回归
- 单连续数值输出
- 自然区间R
- 跟真实值的区别作为损失
分类
- 多个输出
- 输出i是预测为第i类的置信度

校验比例：Softmax

输出匹配概率（非负，和为1）
- $\hat y = softmax(o)$
- $\large \hat y_i = \frac{exp(o_i)}{\sum_k exp(o_k)}$
- 真实概率 y 和预测概率 $\hat y$ 的区别作为损失
softmax和交叉熵损失
- 交叉熵常用来衡量两个概率的区别 $\sum_i - p_i\ log(q_i)$
- 将它作为损失： $\large l(y,\hat y) = -\sum_i\ y_i\ log\hat y_i = -log\ \hat y_y$
- 其梯度是真实概率和预测概率的区别-
  - $\large ∂_{O_i}l(y,\hat y) = softmax(o)_i - y$

总结

softmax回归是一个多类分类模型
使用softmax操作子得到每个类的预测置信度
使用交叉熵来衡量预测和标号的区别

代码实现

导入数据集，设置批量大小

使用Fashion-MNIST数据集，并保持批量大小为256

import torch
from torch import nn
from d2l import torch as d2l

batch_size = 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)

初始化模型参数

softmax回归的输出层是一个全连接层。只需在Sequential中添加一个带有10个输出的全连接层。
同样，在这里Sequential并不是必要的，但它是实现深度模型的基础。
以均值0和标准差0.01随机初始化权重

# PyTorch不会隐式地调整输入的形状。因此，
# 我们在线性层前定义了展平层（flatten），来调整网络输入的形状 
# nn.flatten将任何维度的tensor变成2d的tensor（0维保留，剩下的维度展成向量）
net = nn.Sequential(nn.Flatten(), nn.Linear(784, 10))

def init_weights(m):
    if type(m) == nn.Linear:
        nn.init.normal_(m.weight, std=0.01) # 均值为0 方差为0.01

net.apply(init_weights);

**审视softmax ：关于上下溢出的问题

softmax函数 $\large \hat y_j=softmax(o)_{j} = \frac{exp(o_{j})}{\sum_kexp(o_{k})}$ ，其中 $\hat y_j$ 是预测的概率分布。 $o_j$ 是未规范化的预测 o 的第 j 个元素。
如果 $o_k$ 中的一些数值非常大，那么 $exp⁡(o_k)$ 可能大于数据类型容许的最大数字，即上溢（overflow）。这将使分母或分子变为inf（无穷大），最后得到的是0、inf或nan（不是数字）的 $\hat y_j$ 。在这些情况下，我们无法得到一个明确定义的交叉熵值。
- 解决这个问题的一个技巧是：在继续softmax计算之前，先从所有 $o_k$ 中减去 $max(o_k)$ 。你可以看到每个 $o_k$ 按常数进行的移动不会改变softmax的返回值：
- $\large \hat y_j = \frac{exp(o_{j} - max(o_k))exp(max(o_k))}{\sum_k exp(o_{k}- max(o_k)) exp( max(o_k))} = \frac{exp(o_{j} - max(o_k))}{\sum_k exp(o_{k}- max(o_k))}$
在减法和规范化步骤之后，可能有些 $o_{j} - max(o_k)$ 具有较大的负值。由于精度受限， $o_{j} - max(o_k)$ 将有接近零的值，即下溢（underflow）。
这些值可能会四舍五入为零，使 $\hat y_j$ 为零，并且使得 $log⁡(\hat y_j)$ 的值为-inf。
反向传播几步后，我们可能会发现出现很多的nan结果。
尽管我们要计算指数函数，但我们最终在计算交叉熵损失时会取它们的对数。通过将softmax和交叉熵结合在一起，可以避免反向传播过程中可能会困扰我们的数值稳定性问题。
如下面的等式所示，我们避免计算 $exp(o_{j} - max(o_k))$ ，而可以直接使用 $o_{j} - max(o_k)$ ，因为log⁡(exp⁡(⋅))被抵消了。
- $\large log(\hat y_j) = log(\frac{exp(o_{j} - max(o_k))}{\sum_k exp(o_{k}- max(o_k)) })$
  
  $\large= log(exp(o_{j} - max(o_k)))-log(\sum_k exp(o_{k}- max(o_k)))$
  
  $\large= o_{j} - max(o_k)-log(\sum_k exp(o_{k}- max(o_k)))$

定义交叉熵损失函数

在交叉熵损失函数中传递未规范化的预测，并同时计算softmax及其对数
```
loss = nn.CrossEntropyLoss(reduction='none')
```

优化算法

学习率为0.1的小批量随机梯度下降

trainer = torch.optim.SGD(net.parameters(), lr=0.1)

训练

# 调用之前定义的训练函数来训练模型。
num_epochs = 10
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, trainer)

调包调参侠

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Softmax回归的概念以及代码实现

softmax简单释义及代码实现
复制链接

扫一扫

专栏目录

Softmax回归的概念以及代码实现

回归 vs 分类

从回归到多类分类

校验比例：Softmax

总结

代码实现

导入数据集，设置批量大小

初始化模型参数

**审视softmax ：关于上下溢出的问题

定义交叉熵损失函数

优化算法

训练

“相关推荐”对你有帮助么？