deeplabv1

dcnn和定位的挑战

越深的层,不变性越强,感受野越大,越难瞄准物体轮廓。

dcnn和FC CRF

耦合dcnn的识别能力和全连接 CRF的细粒度定位能力。
input->dcnn->coarse score map->bi-linear interpolation->fc crf ->output
传统上,条件随机场(CRFs, conditional random fields)用来平滑分割噪声。
而现代dcnn产生的score map已经足够平滑。
因此,使用短程CRFs可能有害,因为我们的目标是恢复详细的局部结构,而不是进一步平滑。
为了克服短程CRFs的这些限制,deeplabv1提出dcnn和全连接(fully connected)CRF耦合的方案。
全连接CRF模型利用以下能量函数:

energy_functiuon

largeFOV版本的网络结构

net
1,deeplabv1的除了最后2个max_pool以外的max_pool,kernel_size,stride,padding分别是3,2,1,而vgg-16论文的是2,2,没有padding。
2,最后两个max_pool是3,1,1,这样保持feature map是28*28,是原图的1/8。
3,最后3个conv是空洞卷积,3,1,2,2,最后一个2是dilated rate,输出依旧是28*28。
4,全连接层卷积化,第一个FC在FCN中是7*7的核,个数2048,deeplabv1中3*3,个数1024。3,1,12,12,使用空洞卷积。
5,第二个FC是1,1,核个数也是1024,目的是增强非线性。
6,再加1*1的核改一下通道数,通道数为类别数。
7,上采样8倍得到原图大小。

为什么要largeFOV

在不影响mIOU下减少参数数量和提高训练速度。

Multi_Scale Prediction

融合多个特征层的输出。除了使用主分支外,还融合了来自原图和前四个Max_pool层的输出。源码中来自原图和前四个Max_pool层的路线没有使用空洞卷积,输出和主分支的一样都是28*28*num_classes,这样它们和主分支可以相加,相加后上采样8倍得到224*224*num_classes的输出,对应原图大小,每个像素都有它的类别。

Ref

SEMANTIC IMAGE SEGMENTATION WITH DEEP CONVOLUTIONAL NETS AND FULLY CONNECTED CRFS Liang-Chieh Chen

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值