deeplabv1,v2简单了解了一下下,知道v3的串并联两种结构的性能都比它们更优,所以重点放在了v3,过后也会整理v3+的论文知识,有何错误希望大家看到帮助指正哈!感激不尽!
看神经网络的论文,没有看到它的网络架构的话,我总是觉得难啃,所以这篇文章的整理和之前一样,都是先从他的网络架构开始,然后再剥丝抽茧地找里面的细节。那么我要开始辣~
deeplabv3:Rethinking Atrous Convolution for Semantic Image Segmentation
一.串联网络架构
上图中output stride表示的是输入图片与输出图片分辨率之比。rate是空洞率。在v3原文中说,该结构是将Resnet的最后一个block(即block4)复制多次且以串联的方式连接,如上图所示就是block5,6,7都是block4的复制品,且它们三者是串联的,且原论文中提到如果串联的block增加,性能也会随之提高。
1.block之内是什么内容???
以下是我找来的block的结构,可供参考: