语义分割模型-DeepLab
介绍下DeepLab系列,由谷歌推出的针对语义分割的模型,到目前为止,共有四个版本,这里重点介绍下前两个版本,由于时间原因,并没有来得及读v3+的论文
针对其中用到的主要方法,和大家分享下
- 空洞卷积
- 结构化预测—全连接的CRF
- 多尺度预测—ASPP
空洞卷积
空洞卷积(Dilated Convolution/Atrous Convolution):在标准卷积核的两个相邻元素间填充0。 dilated rate:即扩张率,当其为r时, 卷积核两个相邻元素间填充(r-1)个0。可认为标准卷积是空洞卷积的一个特殊形式。
例如第一个例子:它扩张完后的大小为:5=3+(3-1)*(2-1)
空洞卷积的计算量是不变的,卷积的过程是完全相同的,只是卷积核变了一下
作用:
- 不丢失分辨率、不增加计算量的同时,扩大了感受野:在传统DCNN中,取消后两个Pooling层,并用空洞卷积替代原本的标准卷积。
- 捕获多尺度上下文信息:通过设置dilated rate参数,来获取不同尺寸的感受野,即获取了多尺度信息。
首先解释一下第一个作用
下面的第一幅图片是标准卷积,核为3,步长和padding为1
第二幅图片是扩张率为2的卷积。
第一个的一个输出特征跨了3个输入特征;下面的一个输出特征跨了5个输入特征。
空洞卷积在计算量不增大的前提下,可以有效增大感受野
既然它扩大了感受野,那原来用于扩大感受野的pooling操作就可以去掉了,这样也就保持了图片的分辨率
那么膨胀率能一味增大么?感受野能一味增大么?
答案是不能。下面看一个图片
DeepLa