FCN论文理解

最新推荐文章于 2022-03-21 23:28:30 发布

请设置你的昵称

最新推荐文章于 2022-03-21 23:28:30 发布

阅读量656

点赞数

分类专栏： image caption

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38440272/article/details/84773175

版权

image caption 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

准备接触一下图像分割，首先从FCN看起。

FCN中主要是进行encoder-decoder的过程，将图像输入conv层得到feature map，再通过upsampling的方式，deconv为和如图图像一样的大小。

以vgg16为例，pool层一共有5个，每进行一次pooling操作，因为其stride为2，所以计算后feature的大小就会成为计算前的1/2，所以在pool5输出后，图像为原大小的1/32。

FCN提出了三种结构，FCN-32s，FCN16s，FCN-8s，其中FCN-8s的效果最好。

FCN的训练需要训练三次，FCN32s、FCN16s、FCN8s

FCN-32s

原vgg16的结构如下

FCN-32s的结构如下：

其中fc6为kernel为7的卷积层，fc7为kernel为7，stride为1。

drop7的输出，输入到score_fr中，score_fr用来分成21类；通过upscore上采样，生成score；score和输入的data相比较，crop成和data一样的大小。

FCN-8s

FCN-8s的结构如下：

score_fr：输出fc7层的分类

upscore2：stride为2的deconvolution，上采样为1/16

score_pool4：输出pool4层的分类

score_pool4c：通过upscore2的大小，crop score_pool4

fuse_pool4：将pool5 devonvolution为1/16和pool4出来的层elewise相加

upscore_pool4：将fuse_pool4上采样2倍

score_pool3：pool3输出21类分类

score_pool3c：通过upscore_pool4的大小，crop score_pool3

fuse_pool3c：将upscore_pool4为1/8和pool3出来的层elewise相加

upscore8：上采样8

score：crop

总结：

1.在最后一层后加上softmax，就可以实现对不同类别大小的概率进行估计，实现end to end

2.FCN的核心贡献为提出卷积层实现让图片end to end分类

3.缺点为，由于使用了较浅层的同志，因为fuse操作会加上浅层的pool后的特征值，导致高维特征不能很好的利用；同时因为crop，导致FCN对于图像大小的变化有要求，如果测试集与训练集的图像相差较大，则效果会变差。

请设置你的昵称

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
FCN论文理解

代码参考准备接触一下图像分割，首先从FCN看起。FCN中主要是进行encoder-decoder的过程，将图像输入conv层得到feature map，再通过upsampling的方式，deconv为和如图图像一样的大小。以vgg16为例，pool层一共有5个，每进行一次pooling操作，因为其stride为2，所以计算后feature的大小就会成为计算前的1/2，所以在pool5输...
复制链接

扫一扫

专栏目录

请设置你的昵称 CSDN认证博客专家 CSDN认证企业博客

码龄7年

52: 原创

8万+: 周排名

188万+: 总排名

7万+: 访问

: 等级

1226: 积分

21: 粉丝

16: 获赞

19: 评论

105: 收藏

私信

关注

热门文章

分类专栏

vos 1篇
微信小程序
python爬虫 2篇
open-cv 1篇
c++ 1篇
python 4篇
linux 4篇
机器学习 2篇
深度学习 12篇
NLP 2篇
blockchain 1篇
题目 3篇
image caption 6篇
segmentation 5篇
pytorch 2篇

最新评论

mac ssh连接windows
enchanted_z: 请问乱码问题解决了嘛～
视频物体分割（Video Object Segmentation）综述
V.Guan: 从给定的第一帧的掩码中提取，掩码中每个不同目标的标注是不一样的。比如有两个目标，第一个的像素值假设为1，第二个为2，那么令mask=1可以提取第一个目标，mask=2提取第二个目标，最后将预测结果再相加得到多目标预测掩码。
基于truffle的一个DApp——pet-shop
wennwennn: 请问博主改了哪里啊，我也遇到了这个问题，不知道怎么解决
lightGBM 双高
chandelierds: 麻烦问下best iteration是第一次训练这个问题，楼主是如何解决的？
视频物体分割（Video Object Segmentation）综述
青灯黄卷纯音乐_: 您好，我一直不太清楚半监督的VOS方法是怎么对多物体进行分割的，我看好多论文都提到过多物体分割是进行多次分割，每次分割一个，然后做aggregate，但是我始终不明白是怎么一次对一个object做分割的？是怎么把这个object的特征从多个object的特征中抠出来的？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。