Rethinking Atrous Convolution for Semantic Image Segmentation
论文:https://arxiv.org/abs/1706.05587
代码:deeplab_v3 和 other
相关阅读:更多
全局特性或上下文相关
许多工作证明了全局特性或上下文相关有助于语义分割。全局特性或上下文相关会产生长期依赖问题,即模型会遗忘比较久的信息。
解决方法:
第一种方法是增大卷积核的步幅,“长期”(卷积核平移步数)变短了,也就缓解遗忘症。
第二种方法是增大感受野,“长期”(卷积核平移步数)变短了,也就缓解遗忘症:
- 最直接就是增大卷积核,但是会增加计算量;
- 图像金字塔(Image Pyramid),多尺度输入(输入尺度越小,感受野越大),最后合并;
- Encoder-Decoder,Encoder使用CNNs提取特征,分辨率减小的过程就是感受野增大的过程;
- 空洞卷积(Atrous Convolution),通过修改空洞率rate调节,相当于增大卷积核;
- 空间金字塔池化(Spatial pyramid pooling),复制网络中原始的最后一个块的几个副本,并将它们级联排列,它并行地包含了几个空洞卷积;
- 上下文相关模块,以级联的方式对长期上下文进行编码;
使用空洞卷积提取密集特征
考虑二维信号,对于输出y上的每个位置i和一个滤波器w,在输入特征映射x上应用空洞卷积:
y [ i ] = ∑ k x [ i + r ⋅ k ] w [ k ] y[i] =\sum_k x[i + r · k]w[k] y[i]=