deeplabv1

最新推荐文章于 2024-03-28 10:31:28 发布

换个名字就很好

最新推荐文章于 2024-03-28 10:31:28 发布

阅读量969

点赞数 1

分类专栏：计算机视觉文章标签：计算机视觉

本文链接：https://blog.csdn.net/AliceH1226/article/details/122015308

版权

计算机视觉专栏收录该内容

20 篇文章 1 订阅

订阅专栏

dcnn和定位的挑战

越深的层，不变性越强，感受野越大，越难瞄准物体轮廓。

dcnn和FC CRF

耦合dcnn的识别能力和全连接 CRF的细粒度定位能力。
input->dcnn->coarse score map->bi-linear interpolation->fc crf ->output
传统上，条件随机场(CRFs, conditional random fields)用来平滑分割噪声。
而现代dcnn产生的score map已经足够平滑。
因此，使用短程CRFs可能有害，因为我们的目标是恢复详细的局部结构，而不是进一步平滑。
为了克服短程CRFs的这些限制,deeplabv1提出dcnn和全连接(fully connected)CRF耦合的方案。
全连接CRF模型利用以下能量函数：

energy_functiuon

largeFOV版本的网络结构

net
1,deeplabv1的除了最后2个max_pool以外的max_pool，kernel_size，stride，padding分别是3，2,1，而vgg-16论文的是2,2，没有padding。
2，最后两个max_pool是3,1，1，这样保持feature map是28*28，是原图的1/8。
3，最后3个conv是空洞卷积，3,1，2,2，最后一个2是dilated rate，输出依旧是28*28。
4，全连接层卷积化，第一个FC在FCN中是7*7的核，个数2048，deeplabv1中3*3，个数1024。3,1，12,12，使用空洞卷积。
5，第二个FC是1,1，核个数也是1024，目的是增强非线性。
6，再加1*1的核改一下通道数，通道数为类别数。
7，上采样8倍得到原图大小。

为什么要largeFOV

在不影响mIOU下减少参数数量和提高训练速度。

Multi_Scale Prediction

融合多个特征层的输出。除了使用主分支外，还融合了来自原图和前四个Max_pool层的输出。源码中来自原图和前四个Max_pool层的路线没有使用空洞卷积，输出和主分支的一样都是28*28*num_classes，这样它们和主分支可以相加，相加后上采样8倍得到224*224*num_classes的输出，对应原图大小，每个像素都有它的类别。

Ref

SEMANTIC IMAGE SEGMENTATION WITH DEEP CONVOLUTIONAL NETS AND FULLY CONNECTED CRFS Liang-Chieh Chen

换个名字就很好

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
deeplabv1

dcnn和定位的挑战越深的层，不变性越强，感受野越大，越难瞄准物体轮廓。dcnn和FC CRF耦合dcnn的识别能力和全连接 CRF的细粒度定位能力。input->dcnn->coarse score map->bi-linear interpolation->fc crf ->output传统上，条件随机场(CRFs, conditional random fields)用来平滑分割噪声。而现代dcnn产生的score map已经足够平滑。因此，使用短程CRFs
复制链接

扫一扫

专栏目录