【深度学习笔记】softmax 交叉熵损失

躺平攻城狮

已于 2023-09-27 22:30:39 修改

阅读量208

点赞数

文章标签：深度学习笔记人工智能

于 2023-09-27 13:39:36 首次发布

本文链接：https://blog.csdn.net/PleaseBeStrong/article/details/133346029

版权

1. 简介

softmax回归也是一个单层神经网络，常用于分类模型的最后一层，输出的是独热编码。softmax函数能够将未规范化的预测变换为非负数并且总和为1，同时让模型保持可导的性质。

为了完成这一目标，我们首先对每个未规范化的预测求幂，这样可以确保输出非负。为了确保最终输出的概率值总和为1，我们再让每个求幂后的结果除以它们的总和。即是向量映射为概率

2. softmax公式

日常训练中往往用的是矩阵，所以我们用矩阵替换向量可以得到如下式子，
$\mathrm{softmax}(\mathbf{X})_{ij} = \frac{\exp(\mathbf{X}_{ij})}{\sum_k \exp(\mathbf{X}_{ik})}. ~~~~~ 其中X是矩阵$ 这里保证了每个函数值都在 0 ~ 1之间，且每行之和为1

为什么用行向量求和？简单用下图来演示一下我们以矩阵输入的情况

处理矩阵的softmax代码如下

def softmax(X):
    X_exp = torch.exp(X) #每个元素求指数
    partition = X_exp.sum(1, keepdim=True) #按行累加
    return X_exp / partition  # 这里应用了广播机制

3. 交叉熵

作为损失函数的一种，经常与softmax一起用于分类问题评估模型的loss，它是所有标签分布的预期损失值，可以写成如下公式： $l(y,\hat y) = \sum_{i=0}^n-y_ilog\hat {y_i} = -log \hat {y_y}$
由于独热编码，我们可以只考虑 $y_i$ 为1的，即可化解为右式，在 $y$ 样本值处对应的预测值 $\hat y$ ，代码如下

def cross_entropy(y_hat, y):
    return - torch.log(y_hat[range(len(y_hat)), y]) #y是给定的实例样本坐标

而对其求梯度： $\partial_{o_j} ~l(y,\hat y) = \frac{\exp(o_i)}{\sum_{j=1}^n \exp(o_j)} - y_j = \mathrm{softmax}(\mathbf{o})_j - y_j$ 综上，交叉熵梯度即为真实值与预测值之间的误差

躺平攻城狮

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
【深度学习笔记】softmax 交叉熵损失

softmax回归也是一个单层神经网络，常用于分类模型的最后一层，输出的是独热编码。能够将未规范化的预测变换为非负数并且，同时让模型保持的性质。为了完成这一目标，我们首先对每个未规范化的预测求幂，这样可以确保输出非负。为了确保最终输出的概率值总和为1，我们再让每个求幂后的结果除以它们的总和。
复制链接

扫一扫