softmax的loss和gradient推导过程

本文详细介绍了softmax的损失(loss)计算和梯度(grad)推导过程,包括naive loop和vectorization的实现方式。博主分享了在cs231n课程作业中的学习体验,探讨了对正确分类和错误分类的得分如何影响梯度,并提供了相应的Python代码示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

softmax的loss和gradient推导过程

  相信搞deeplearning的各位大牛都很熟悉softmax了,用来对得分矩阵做归一化得到概率的一种分类手段,我这两天在做cs231n的作业,新手上路,只作为自己的学习足迹记录,还望各位大佬多多包涵。

  • 简单介绍
  • Softmax的loss计算
  • Softmax的grad计算
  • naive loop
  • vectorization

简单介绍

每个样本的loss

  这个公式是大家非常熟悉的,其实就是对于神经网络最后一层的结果进行指数概率的归一化,其中Li求得的是对于每个样本而言,它在所有类别中,被分类位正确的概率,syi代表样本被正确分类的评分,sj代表样本被分类为j的评分。 其实对于loss的求解很简单,主要的难度就在于对于梯度的求解。

loss的计算

  根据上面的定义其实很容易计算loss,把所有样本i的Li加起来就是最终的结果,需要注意的是L的维度,和分数矩阵相同,最后再计算的时候用numpy.sum函数求矩阵的所有元素之和即可。另外需要考虑的就是归一化和正则化,归一化除以训练样本数就行。做作业的时候说的是用L2正则化,也就是把regularization_rate*W*W加在loss后面即可。

这里写图片描述

梯度grad的计算

### Softmax 函数与交叉熵损失函数的求导 #### 背景介绍 Softmax 函数通常用于多分类问题中的最后一层激活函数,它能够将输入转换成概率分布形式。而交叉熵损失函数则衡量预测的概率分布与真实标签之间的差异。 #### 数学推导 对于给定的一个样本 \( \mathbf{x} \),其经过网络后的输出记作向量 \( z = (z_1, ..., z_K)^T \),其中 K 是类别数量。应用 softmax 后得到的概率分布为: \[ p_i = \frac{e^{z_i}}{\sum_{j=1}^K e^{z_j}}, i = 1,...,K \] 设真实的标签表示为独热编码的形式 \( y=(y_1,y_2,\ldots ,y_k)\in\left\{0,1\right\} ^k\) ,那么交叉熵损失可以定义如下: \[ L(\theta)= -\sum _i y_ilog(p_i)=-log(p_y), \text {where }p_y=p(y|x;\theta )=\prod_ip_i^{yi}\] 为了计算梯度下降所需的偏导数,考虑单个训练样例的情况下,针对第 k 类别的权重参数 w 的更新规则可由链式法则得出: \[ \begin{aligned} \nabla_wL &= (\partial/\partial w)L \\ &= (\partial /\partial p_k)(-\ln p_k)\cdot(\partial / \partial z_k)p_k\cdot(\partial/ \partial w)z_k\\ &=(-1/p_k)\times(e^{-z_k}/S)\times x\\ &=-(x/S)e^{-z_k}\\ &= -(x/S)p_ke^{-z_k}(1-p_k)/p_k\\ &= -xp_k(1-p_k) \end{aligned}[^1]\] 这里 S 表示分母部分即所有指数项之;\( x \)代表当前特征向量。当处理多个类时,则需累加各个类对应的贡献来获得最终的结果。 #### 实现细节 在实际编程实现中,为了避免数溢出或者下溢的情况发生,在计算过程中会采用一些技巧性的变换方法。比如先减去最大再做 exp 运算,从而保证后续运算的安全性稳定性。 ```python import numpy as np def stable_softmax(z): """Compute the softmax of vector z in a numerically stable way.""" shift_z = z - np.max(z) exp_scores = np.exp(shift_z) return exp_scores / np.sum(exp_scores) def compute_loss_and_gradient(scores, labels): """ Compute cross-entropy loss and gradients. Args: scores: A matrix containing raw predictions from model. Shape should be NxD where D is num_classes. labels: True label indices for each example. Length must match N. Returns: Tuple with scalar representing average CE loss across all samples, plus gradient wrt input logits `scores`. """ n_samples = scores.shape[0] probs = stable_softmax(scores) log_likelihoods = -np.log(probs[np.arange(n_samples),labels]) avg_ce_loss = np.mean(log_likelihoods) dscores = probs.copy() dscores[np.arange(n_samples),labels] -= 1 grad_avg = dscores/n_samples return avg_ce_loss,grad_avg ``` 上述代码实现了稳定版的 softmax 计算以及相应的交叉熵损失及其反向传播所需的一阶导数矩阵。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值