fcn语义分割 论文

本文深入探讨全卷积网络(FCN)如何解决固定输入尺寸的问题,通过将全连接层转换为卷积并结合上采样实现任意大小输入的语义分割。FCN保持了特征映射的空间结构,允许精确恢复目标位置。此外,文章还介绍了skip net结构,通过结合高层和低层特征来改善细节处理,提高语义分割的准确性。
摘要由CSDN通过智能技术生成

全卷积网络:

个人认为本文主要是两个重点:

第一是fcn,全卷积网络(+上采样)

第二是skip net

首先说全卷积网络:

通常cnn在卷积层后会接上若干全连接层,但是全连接层和卷积层的连接数量是固定的,这也就导致了输入必须是固定的尺寸。如下图所示:

clipboard

但是在fcn中将fc用卷积取代,再加上采样层,这样能够输入任何大小的图片,同时输出图片相应大小的语义分割。如下图所示:

clipboard

可以看到两站图中的红色部分略有不同,这是因为第一幅图中通过全连接层,已经破坏了卷积层输出feature map的空间结构,而第二幅图中通过全卷积网络保持了feature map空间结构,在通过反卷积完全可以恢复原图像中目标的空间位置,也成为heat map。从下图中可以看出heat map中的标记与原图中cat的位置相似。

clipboard

那作者是如何将fc层替换为全连接层呢?这就样引出卷积层和全连接层可以相互转化的关系了。

卷积--------》全连接 :全连接矩阵是一个非常巨大的矩阵,很明显,全连接层的连接数量要远远多于卷积层,所以就可以通过将某些连接置0,使其模拟卷积。

全连接-------》卷积:例如将100x100x1的feature map通过全连接输出1000大小的一维向量,就可以将每一个输出看做一个卷积的结果,而卷积的核大小为100x100。

将fc都用conv替换后,接下来就是上采样(很多博客称为反卷积,但是为了区别可视化中的反卷积还是称为上采样了好了)。引用一张cs231n中的ppt,

clipboard

通过输入设置卷积的权重,然后在输出中相加。类似于插值的思想。(ps:既然如此那能够使用反卷积网络搭建一个可学习的插值器,理论上这比采用人工设计的插值要好很多,不知道现在有没有人做)。

当然整个卷积网络是可以使用反向传播的。

其次是skip net:

虽然作者在文中也并不是那么重点地讲,但是这种思想还是可以学习的。如下图:

clipboard

在卷积网络(包括卷积、池化)中,层数越深,感受野越大,学习到的特征就越概括,作者称之为coarse(粗糙)。fcn-32s从pooling5上采样,而结果也显示细节处理很不好。如下图:

clipboard

作者通过将低层和高层进行连接,最终可以将低层的图像细节加到粗糙的轮廓中,如上图。具体怎样连接的可以看图。

当见过skip net这种结构的时候,再见到下图的结构也就不懵逼了。

clipboard

https://lmb.informatik.uni-freiburg.de/people/ronneber/u-net/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值