03.最优化-求梯度

最新推荐文章于 2024-02-22 18:48:04 发布

潘小榭

最新推荐文章于 2024-02-22 18:48:04 发布

阅读量2.1k

点赞数

分类专栏： cs231n 文章标签： cs231n

本文链接：https://blog.csdn.net/panxiaoxie/article/details/79567413

版权

本文探讨了最优化问题，特别是针对损失函数的优化。通过损失函数可视化展示了在高维空间中如何压缩权重向量以理解损失函数的行为。接着介绍了有限差值法和微分分析法计算梯度，其中微分分析法提供了精确的梯度计算公式，但需要进行梯度检查以确保正确性。文章以softmax损失函数为例，详细推导了其梯度计算过程。

摘要由CSDN通过智能技术生成

损失函数可视化
最优化
- 有限差值法求梯度
- 微分法求梯度：softmax为损失函数时推导

前面介绍了两部分：
1. 评分函数：将原始图像像素映射为分类评分值
2. 损失函数：根据评分函数和训练集图像数据实际分类的一致性，衡量某个具体参数集的质量好坏。
那么寻找到能使损失函数值最小化的参数的过程就是最优化 Optimization。

损失函数可视化

损失函数L可以看作是权重W的函数，在CIFAR-10中一个分类器的权重矩阵大小是[10,3073]，即 $L(W_1,W_2,....,W10)$ ，对其中某一个分类器 $W_i$ 有3073个参数，想要得到 $L$ 关于 $W_i$ 的可视化很难。
但是方法还是有的，随机生成一个权重矩阵W，并沿着此方向计算损失值， $L(W+\alpha W_1)$ 。

具体参考这里！
还有这样一篇paper！

总而言之，就是将高维空间压缩到二维， $W_i[1,3073]$ 转换到 $[1,1]$ 然后在此基础上，画出loss关于它的值。
如果是压缩到三维，就是[1,3073]->[1,2]，那么完整的loss就是这个形状的3073/2*10维的版本。

最优化Optimization

在数学上我们已经知道loss下降最快的方向就是梯度方向（gradient）。

有限差值法计算梯度

公式： $\frac{df(x)}{dx} = \lim_{h\to 0}\frac{f(x+h)-f(x)}{h}$
下面代码是一个输入为函数f和向量x，计算f的梯度的通用函数，它返回函数f在点x处的梯度：

def eval_numerical_gradient(f, x):
  """  
  一个f在x处的数值梯度法的简单实现
  - f是只有一个参数的函数
  - x是计算梯度的点
  """ 

  fx = f(x) # 在原点计算函数值
  grad = np.zeros(x.shape)   ##
  h = 0.00001

  # 对x中所有的索引进行迭代
  it = np.nditer(x, flags=['multi_index'], op_flags=['readwrite'])
  while not it.finished:

    # 计算x+h处的函数值
    ix = it.multi_index
    old_value = x[ix]
    x[ix] = old_value + h # 增加h

最低0.47元/天解锁文章

潘小榭

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
03.最优化-求梯度

损失函数可视化最优化有限差值法求梯度微分法求梯度：softmax为损失函数时推导前面介绍了两部分： 1. 评分函数：将原始图像像素映射为分类评分值 2. 损失函数：根据评分函数和训练集图像数据实际分类的一致性，衡量某个具体参数集的质量好坏。那么寻找到能使损失函数值最小化的参数的过程就是最优化 Optimization。损失函数可视化损失函数L可以看作是权重W...
复制链接

扫一扫

专栏目录