GridNet发表在BMVC2017,用于语义分割,一篇很早期的文章
论文地址:【here】
(文章没有给代码地址,但是里面的网络设计讲的很详细,可以自己复现出来,github上也有很多别人复现的代码)
Residual Conv-Deconv Grid Network for Semantic Segmentation
前言
首先提到了全卷机网络(fully convolutional networks),用于2D图像的生成,全卷机网络的两种策略
- conv-deconv networks
通过下采样和上采样来扩大感受野 - dilated convolution-based networks
通过膨胀卷积来扩大感受野
本文提出了一种全新的网络结构,gridnet,通过不同尺度之间的相互连接来融合低层和高层的语义信息
网络结构
其中红色的虚线框内的具体构成为
在绿框的横向流动中,分辨率和特征层数不改变
在行与行之间,特征层成2倍的增加,分辨率的长宽成2倍的下降
作者用公式阐释了下采样(红)和上采样(黄)和横向流动(绿)的过程
可以看到,每个节点xij都有来自两边的输入,一个是横向的流动,一个是上采样或下采样,并且结合的方式是sum
作者还给出了gridNet和U-Net,conv-deconv networks ,Full Resolution Residual Networks (FRRN)的区别
第二个作者的设计是,设计了dropout,因为第一行的路径最短,层数也最深,对网络的影响很大,因此随机切断一些流动,来强迫网络使用所有的流
实验
与SOTA相比
总结
早期的文章写得比较细致,把网络的设计思路和设计细节都阐释得很具体。甚至花了一小章去讲参数量的计算。后面有很多工作是沿用了gridnet的,特别是当有多个不同分辨率分支的输入时,它的网格流动的思想有很大的借鉴意义