CS231n-2017 第3讲损失函数与优化

最新推荐文章于 2023-10-30 15:17:24 发布

suredied

最新推荐文章于 2023-10-30 15:17:24 发布

阅读量642

点赞数

分类专栏： CS231n 文章标签： CS231n 深度学习机器视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/suredied/article/details/82226629

版权

深度学习同时被 3 个专栏收录

37 篇文章 9 订阅

订阅专栏

21 篇文章 1 订阅

订阅专栏

16 篇文章 4 订阅

订阅专栏

一. 损失函数

1. 基本概念

为了评估现有的模型的好坏，需要一个定量指标。这就是损失函数起作用之处。
对于由 $N$ 个样本组成的数据集 $\{(x_i, y_i)\}_{i=1}^N$ ，定义总体损失函数为各个样本造成的损失的平均

L = 1 N \sum i L i (f (x i, W), y i)

$L = \frac{1}{N}\sum_iL_i(f(x_i, W), y_i)$

2. `SVM`的损失函数

多分类的支持向量损失函数可定义如下：

L i = \sum j \neq y i {0 s j - s y i + 1 i f s y i \geq s j + 1 o t h e r w i s e = \sum j \neq y i max (0, s j - s y i + 1)

$\begin{array}{ll} L_i & = \sum_{j \ne y_i} \left\{ \begin{array}{ll} 0 & \rm{if} \,\, s_{y_i} \ge s_j+1 \\ s_j - s_{y_i} + 1 & \rm{otherwise} \end{array}\right. \\ \\ &=\sum_{j \ne y_i}\max(0, s_j - s_{y_i}+1) \end{array}$

即当正确分类的得分比错误类别的得分高出一个安全边际1的时候，认为没有损失。

这个损失函数最大值为无穷大，最小值为 $0$ 。当初始化时，所有分类得分大致相同，损失函数约为 $C-1$ 。当正确分类的得分稍微变化时，由于安全边际的存在，损失函数大致不变。

3. 正则化

在上述场景下，如果我们找到一个使损失函数为 $0$ 的 $W$ ，那么 $2W$ 也会使损失函数为0。那么如何选择参数呢？一个准则是参数越简单越好，采用的做法是添加正则项限制模型复杂度。

L = 1 N \sum i L i (f (x i, W), y i) + λ R (W)

$L = \frac{1}{N}\sum_iL_i(f(x_i, W), y_i) + \lambda R(W)$

4. `SoftMax`分类器(多类别逻辑回归)

不预测得分，预测每个类别的概率。需要保证输出非负，且求和归一化，即SoftMax操作。

P (Y = k | X = x i) = e s k \sum j e s j

$P(Y=k|X=x_i) = \frac{e^{s_k}}{\sum_j e^{s_j}}$

此时期望正确类别的概率接近于1。在这种场景下，可采用交叉熵作为损失函数：

L = - log P (Y = y i | X = x i)

$L = -\log P(Y=y_i|X=x_i)$
当初始化时，所有分类的概率值大致相同，此时损失函数约为

logC log ⁡ C $\log C$ 。

与SVM损失函数的对比：在SVM损失函数优化问题中，当找到一个足够小的损失值的时候，算法将不再进行优化，即不再扩大错误分类与正确分类的边际。但在逻辑回归损失函数情形中，算法将持续优化至正确分类的概率足够接近于 1 <script type="math/tex" id="MathJax-Element-14">1</script>。

二. 优化算法

采用的优化方法就是梯度下降法。

在实践中，可使用梯度的数值计算方法校验代码的正确性。

如果数据集过于庞大，用所有数据计算梯度的复杂度就很高，因此将数据集划分为小块，针对每一小块计算梯度，这就是随机梯度法。

三. 图像特征提取

图 1. 做特征空间转换后，可能会比较容易区分。

经过特征提取后，一些图像可能就比较容易区分。

获取图像特征的方法有：

直方图。
方向梯度直方图。
词频方法：类比于自然语言处理中的方法，对图像分小块，然后进行聚类，以聚出的类别为码本，对图像进行编码。
使用卷积神经网络，则在分类过程中会自动提取图像特征。

一些有用的链接

梯度下降法可视化，需科学上网。
SVM的优化过程可视化。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
CS231n-2017 第3讲损失函数与优化

一. 损失函数1. 基本概念为了评估现有的模型的好坏，需要一个定量指标。这就是损失函数起作用之处。对于由NNN个样本组成的数据集{(xi,yi)}Ni=1{(xi,yi)}i=1N\{(x_i, y_i)\}_{i=1}^N，定义总体损失函数为各个样本造成的损失的平均L=1N∑iLi(f(xi,W),yi)L=1N∑iLi(f(xi,W),yi)L = \frac{1}{...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。