最优化基础：损失函数可视化、折页损失函数 & 梯度计算

最新推荐文章于 2024-06-29 23:07:07 发布

独孤呆博

最新推荐文章于 2024-06-29 23:07:07 发布

阅读量3.9k

点赞数 2

分类专栏： CS231n_课程笔记_完结基于深度学习的图像分类文章标签：最优化折页损失函数梯度下降可视化随机梯度下降

本文链接：https://blog.csdn.net/dugudaibo/article/details/78314321

版权

本文介绍了最优化基础，包括损失函数的可视化、折页损失函数的分段线性特性及梯度计算方法。重点讨论了随机搜索、随机本地搜索和梯度下降策略，以及数值梯度法和分析梯度法，特别是梯度下降在神经网络优化中的应用。

摘要由CSDN通过智能技术生成

本文主要内容为 CS231n 课程的学习笔记，主要参考学习视频和对应的课程笔记翻译 ,感谢各位前辈对于深度学习的辛苦付出。在这里我主要记录下自己觉得重要的内容以及一些相关的想法，希望能与大家多多交流~

1. 损失函数可视化

在高维度的空间中（比如，在CIFAR-10中一个线性分类器的权重矩阵大小是[10x3073]，就有30730个参数），这样要将其可视化就很困难。然而办法还是有的，在1个维度或者2个维度的方向上对高维空间进行切片，就能得到一些直观感受。例如，随机生成一个权重矩阵W，该矩阵就与高维空间中的一个点对应。然后沿着某个维度方向前进的同时记录损失函数值的变化。换句话说，就是生成一个随机的方向 $W_1$ 并且沿着此方向计算损失值，计算方法是根据不同的a值来计算 $L(W+aW_1)$ 。这个过程将生成一个图表，其x轴是a值，y轴是损失函数值。同样的方法还可以用在两个维度上，通过改变a,b来计算损失值 $L(W+aW_1+bW_2)$ ，从而给出二维的图像。在图像中，a,b可以分别用x和y轴表示，而损失函数的值可以用颜色变化表示

图 1. 一个无正则化的多类SVM的损失函数的图示

左边和中间只有一个样本数据，右边是CIFAR-10中的100个数据。左：a值变化在某个维度方向上对应的的损失值变化。中和右：两个维度方向上的损失值切片图，蓝色部分是低损失值区域，红色部分是高损失值区域。注意损失函数的分段线性结构。多个样本的损失值是总体的平均值，所以右边的碗状结构是很多的分段线性结构的平均（比如中间这个就是其中之一）。