[深度学习基础] 斯坦福CS231n李飞飞计算机视觉Lecture 13笔记

Lecture 13 Segmentation and Soft Attention

本章节主要介绍分割模型与注意力模型

Segmentation

分割模型其实也会分为两种,一种是只进行分割,将不同类别以像素级分别表示,另一种全分割就是在分割的基础上对每个物体进行分类,其中还要比较复杂的是将某一同类别物体但是不同个体进行分割,下面看一下例子:
在这里插入图片描述
首先,可以想到的是滑窗处理,将每一个窗口分别计算类别,然后输出,但是这样计算会很复杂:
在这里插入图片描述
既然滑窗这么复杂,我们可以直接使用卷积神经网络对物体进行鉴别,我们可以直接进行不缩小图片的操作,原尺度卷积并不加入池化层,可是这样计算量会非常复杂:
在这里插入图片描述
或者先进性卷积得到深层特征,最后使用一层上采样或反卷积层,得到原图大小,再对标签进行一一对应分类,可是这样会导致分割结果欠佳(FCN模型):
在这里插入图片描述
在下图中,FCN模型集合了在后几次池化之前的特征,以达到最大化得到原图低维特征但位置准确的细节:
在这里插入图片描述
在这里插入图片描述
这里讲一下反池化:
在这里插入图片描述
可以看到上图中一个是临近池化与定位池化,都是反池化的方式。

这里再讲一下反卷积,先从卷积开始,正常的卷积为下图所示:
在这里插入图片描述
那么反卷积是不是也可以理解成将卷积反过来,输入的一个数值对应的输出多个数值:
在这里插入图片描述
这里也有几个动图展示不同的反卷积:

下图是空洞卷积:

说完反卷积,再来看一看一个比较成熟的模型:U-net,这个模型对医学图像处理的很好,因为呀真正实现了点对点操作,并且集合了不同的尺度:
在这里插入图片描述

Soft Attention

注意力模型是最近出来的一种类似于显著性检测的模型,意义在于利用近似循环神经网络对视频或图片找出接下来的注视点的模型。

大致与之前RNN不同点在于,他的模型在后续的预测时不止输入隐藏层参数与前项预测参数,还要有图片的特征参数,相当于每次预测过程中都有原图作为参考。

因为本人没有太关注过NLP,RNN与LSTM的东西,所以不是太了解,以后有时间再来谈。

小结

讲解分割模型与反卷积以及注意力模型。

资料来源:

  1. 斯坦福CS231n李飞飞计算机视觉视频课程:https://study.163.com/course/courseMain.htm?courseId=1003223001
  2. CS231n官方笔记授权翻译总集篇:https://zhuanlan.zhihu.com/p/21930884
  3. CS231n官方PPT:http://vision.stanford.edu/teaching/cs231n/syllabus.html
  4. 反卷积大致介绍:https://github.com/vdumoulin/conv_arithmetic
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值