CS231_深度之眼打卡_4

1. 损失函数通用表达式

L = 1 N ∑ i = 1 N ( L i ( f ( x i , W ) , y i ) L=\frac{1}{N}\sum_{i=1}^N (L_i(f(x_i,W),y_i) L=N1i=1N(Li(f(xi,W),yi)

2. Hinge Loss 表达式(多分类SVM损失函数)

L i = ∑ y i ! = j m a x ( 0 , s j − s y i + 1 ) L_i=\sum_{y_i!=j}max(0,s_j-s_{y_i}+1) Li=yi!=jmax(0,sjsyi+1)
s_yi为分类正确的得分,s_j为分成其他类的得分(故下标不同时才相加)
在这里插入图片描述
例子:
在这里插入图片描述
在这里插入图片描述

当找到一个W使得L=0时,W不唯一,比如2W。

3 . 加正则的目的

L = 1 N ∑ i = 1 N ( L i ( f ( x i , W ) , y i ) + λ R ( W ) L=\frac{1}{N}\sum_{i=1}^N (L_i(f(x_i,W),y_i) + \lambda R(W) L=N1i=1N(Li(f(xi,W),yi)+λR(W)
加入正则项的目的就是使模型避免过拟合。
常用的有L1,L2正则化,在机器学习里叫正则化,线性代数叫范数,统计学里叫惩罚项。

也解决了W不唯一的问题

在这里插入图片描述

4. Softmax 与交叉熵损失公式,分析交叉熵损失的最大值与最小值(softmax 求导要会)

分类的概率为(就是得分指数化后再归一化的公式):
P ( Y = k ∣ X = x i ) = e s k ∑ j e s j P(Y=k|X=x_i)=\frac{e^{s_k}}{\sum_je^{s_j}} P(Y=kX=xi)=jesjesk
softmax的为:
L i = − l o g ( e s k ∑ j e s j ) L_i=-log(\frac{e^{s_k}}{\sum_je^{s_j}}) Li=log(jesjesk)
例子:
在这里插入图片描述

softmax【0,+无穷大】,因为概率从0到1.

当分类错误时,即概率P小,L因此变大

为什么指数化(参考https://www.jianshu.com/p/1536f98c659c)

直观来讲是为了拉开各类别间的差异,怎么理解呢?举个例子:假设输入的得分值为

Z = [1, 4, 2, 3]

使用argmax函数,则输出的分类结果为

[0, 1, 0, 0]

这个输出完美地符合实际情况。这个很完美,然而并没有什么用,因为argmax函数并不是处处可微的,我们无法用它来训练模型。

使用加权归一化函数
在这里插入图片描述
输出相应的类别概率为

[0.1, 0.4, 0.2, 0.3]

这跟argmax得出的相差有点远。

引入以 e 为底的指数并加权归一化,即softmax
输出相应的类别概率为

[0.032, 0.644, 0.087, 0.237]

这个结果将分类概率拉开了距离,富的越富,穷的越穷,最终富的消灭穷的,达到共同富裕,也就更接近期望值。这主要得益于引入的指数函数,请看它的曲线

在这里插入图片描述

softmax的一种推导(信息熵和KL散度)

在这里插入图片描述
在这里插入图片描述
大概解释:p分布为独热码,即为正确分布;q分布为分类结果得分的分布。
p和q越相似,即分类结果越正确。

5. Hinge loss与Softmax的区别

在这里插入图片描述
8 优化
这部分主要包括两个内容一个是优化方法。另一个是传统图像识别方法两步走策略。
优化方法 主要是学习常用的优化算法学习,例如梯度下降,带动量的梯度下降以及Adam等一系列优化方法。其中本节课提到了梯度、导数的含义以及学习率这个重要的超参数,这个超参数是我们训练神经网络需要首要考虑的。随机梯度下降使用minibatch数据来估计总的误差以及梯度,这样速度比使用全部数据计算更快。
两步走策略重点介绍了传统方法如何做图像分类任务。第一步提取图像的特征:颜色分布,HOG, SIFT特征,bag of words。第二使用步分类算法进行识别图像类别。
梯度下降常用的优化策略 sgd adam等方法是大家重点要学习的 ,两步走策略进行图像识别步骤 需要了解。

6. 梯度下降策略的公式与描述(sgd, adam)

参看网上博客深度学习之梯度下降算法(SGD,RMSProp,Adam)

7.图像识别两步走策略的步骤 ,输入图像特征的动机

线性分类器就是将图像的原始像素取出,然后直接传入线性分类器,但是这样做效果并不好,所以在深度神经网络大规模运用之前,常用的方法就是首先计算原始图片的各种特征代表,比如说是可能与图片形象有关的数值,然后将不同的特征向量组合到一起,得到图像的特征表述,最后将这一特征表述传入到线性分类器,而不是将原始像素传入到线性分类器。
在这里插入图片描述
这样做的动机就是
对于左侧图片的点的分布不能用一个线性决策边界来划分点的种类。但是我们采用一个特征转换(此处使用极坐标转换),得到一个转换特征,就可以把一个复杂的数据集转化成线性可分的。

在这里插入图片描述

8. 常见的图像特征有哪些,任意选择两个进行描述(复习hog与sift)

颜色直方图,获取每个像素值对应的光谱,计算每个像素点出现的次数,从全局上告诉我们图像中的有哪些颜色
在这里插入图片描述
方向梯度直方图,将图像按八个像素区分为八份,计算每个像素值的主要边缘方向。
在这里插入图片描述
词袋,首先获得一推图像,然后从这些图像中进行小的随机块的采样,然后采用k均值等方法将他们聚合成簇,从而得到不同的簇中心,这些簇中心可能代表了图像中不同类型的视觉单词
这些视觉单词就像一个码本,用这些视觉单词对图像进行编码,看这些视觉单词在图像中出现过多少次

在这里插入图片描述

9. 传统方式与神经网络处理图像问题有哪些不同点

神经网络不需要提前对图像提取特征,而是直接从图像中学习特征。

优化方法是用来获取最好的W
图像分类:先提取图像的特征,然后进行模型的学习,最后用训练好的分类对特征进行分类。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值