CS231N斯坦福计算机视觉公开课 02 - 损失函数和优化

一、SVM铰链损失函数

分类错误的分数减去分类正确的分数再加1,比较这个数和0的大小关系,取最大值

  • 猫猫的SVM loss为:max(0 , 5.1 - 3.2 + 1) + max(0,- 1.7 - 3.2 + 1) = 2.9+0 = 2.9

在这里插入图片描述

二、正则化

1.引入原因

  • 由于同一个损失函数可以有多种变形算法(如将所有分数乘以2后再进行SVM loss计算),但是我们需要的是最简单的计算方法,所以我们引入正则化的概念
  • 正则化可以让权重、模型在测试集上更好的泛化

正则化:

  • 在常规损失函数的项后添加一个正则化的项,用正则化参数 λ \lambda λ 表示正则化的强度
  • 一些正则化方法
    • L1、L2正则化,以及它们的线性组合
    • Dropout正则化……

在这里插入图片描述

举例:

  • 我们得到了 w 1 w_1 w1 w 2 w_2 w2两个权重向量,他们与输入的 x x x的乘积是相同的
  • 但是引入L2正则化函数后,计算出来的正则化项中, w 1 w_1 w1对应的正则化项还是1, w 2 w_2 w2对应的正则化项是 0.2 5 2 ∗ 4 0.25^2*4 0.2524,明显小于1,所以我们可以选出像 w 2 w_2 w2这样较为平均的权重,而不是像 w 1 w_1 w1这样一家独大的权重

在这里插入图片描述

可以把上述的 w 2 w_2 w2看做是下图中的 f 2 f_2 f2,把上述的 w 1 w_1 w1看做是下图汇总的 f 1 f_1 f1,往往更简单的模型的泛化能力更强(此图也可以帮助理解泛化能力的含义),也可以有效的防止过拟合

在这里插入图片描述

三、Softmax交叉熵损失函数

工作原理

  • 首先将所有的分数作 指数变化
  • 然后将变化后的分数做归一化(分子为该分数、分母为所有分数的和)
  • 将正确的类别对应的分数作交叉熵损失函数(对数似然损失函数、负对数损失函数,一个意思),即-log(分数),此数值越接近于0,正确类别的分数越高

在这里插入图片描述

四、优化过程

1.梯度下降算法

  • 求得损失函数对于每一个权重的梯度(偏导数),按照梯度的反方向乘以学习率去更新权重
  • “下降”指的是使得损失函数下降,而不是使得梯度本身下降
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值