[Paper Reading] Attention to Scale: Scale-aware Semantic Image Segmentation

最新推荐文章于 2022-08-20 00:30:00 发布

C_row

最新推荐文章于 2022-08-20 00:30:00 发布

阅读量2k

点赞数 7

分类专栏： Deep learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/C_row/article/details/52092924

版权

Deep learning 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Motivation:

Multi-scale features对性能的提升是非常大的。做Multi-scale一般是两个思路：skip-net和share-net

skip-net的思路是将各个中间层的特征都结合进来，不同层带来的特征用来做多尺度

share-net的思路就比较简单粗暴，不同尺度的图片都输入到网络进去，再将得到的特征结合起来

那么，就涉及到一个问题了，怎么结合？

Solution：

直观的，有Max-pooling和Average-pooling。这里，作者提出了一个加权和，也就是：

其中，w是权重，f是不同尺度的特征，g是结合后的结果。而Max-pooling和Average-pooling是这个公式的两种特殊情况。

看到这个公式我的第一反应是，用一个卷积来训练w？

当然作者想的比较多，采用了一种data-driven的方法，通过一个attention model来训练这里的权重。

所以简单来说，这篇文章做的事情只是把多尺度特征用加权组合起来而已

Attention Model：

注意力模型模拟的是我们看一张图片，会把注意力放在哪块区域。这里，作者认为，不同尺寸的图片，我们会把注意力放在不同的地方

比如，比较小的图片，我们就会把注意力放在较大的区域（这个是有道理的）。比较大的图片，我们会把注意力放在比较小的东西（这个我就不敢苟同了）。

在实现上，他的attention model是一个两层卷积结构，第一个卷积层有512个3*3的卷积核，第二个卷积层有S个1*1的卷积核（S是尺度数，也就是不同尺寸输入图片数）。

Network Architecture：

不看虚线框起来的attention model，其实就是用 FCN 提取两个不同Size图片的特征，然后结合起来。

细分下去：

FCN 的fc7形成分支。一方面，传给fc8作为score map ，另一方面，传输给这个attention model（也就是我们刚才说的两层卷积结构），

来得到weight map，再对这两个weight map做一个softmax得到weight

h是weight map

然后再如前面所说，加权和一下，就得到最后我们想要的包含多尺度信息的特征了

这里，文章中虽然没说，但我觉得传入attention model前，两个fc7应该要resize到相同尺寸

Experiment：

作者做了三个尺度，原尺寸，0.75和0.5,。0.25因为效果太差放弃了。

第二行是max-pooling得到的weight map，第三行是他的attention model学出来的weight map，确实不同尺度关注的东西不大一样，scale最小的关注的就是比较大的比如背景

关注

7
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
[Paper Reading] Attention to Scale: Scale-aware Semantic Image Segmentation

Background:Multi-scale features对性能的提升是非常大的。做Multi-scale一般是两个思路：skip-net和share-net
复制链接

扫一扫

专栏目录

C_row CSDN认证博客专家 CSDN认证企业博客

码龄9年

4: 原创

57万+: 周排名

40万+: 总排名

1万+: 访问

: 等级

210: 积分

4: 粉丝

13: 获赞

11: 评论

10: 收藏

私信

关注

热门文章

分类专栏

Deep learning 3篇
Qt 1篇

最新评论

[Paper Reading] Attention to Scale: Scale-aware Semantic Image Segmentation
qq_40548768: 请问作者大大，这个额外的监督机制是怎么做到的呢？和原来的监督机制有什么不太一样的，我没太明白，，，
[Paper Reading] DeepLab v1 & v2
weixin_43866171: Fully Connected CRF 代码中是怎么实现的为什么没有找到呢，小白一个请见谅
[Paper Reading] DeepLab v1 & v2
C_row 回复鹿鹿最可爱: 第一个问题，这里是我写错了，以图片为准。第二个问题，理解全连接的CRF，就得先理解普通CRF，CRF在视觉中，你可以理解为是一个位置的值，是和其他位置相关的。当和它周围3邻域相关的话，算该位置的值的时候，需要考虑其他3邻域其他像素的值。那么全连接就是说一个位置的值和所有位置都是相关的。
[Paper Reading] DeepLab v1 & v2
鹿鹿最可爱: 您好，我有两个问题：问题一：请问 “另外，CRF是后处理，是不参与训练的，在测试的时候对feature map做完CRF后，再双线性插值resize到原图尺寸，”这里我看论文中图片，不是先插值道原图尺寸再做CRF吗？？问题二：fully connect CRF到底是怎么做的？？
[Paper Reading] DeepLab v1 & v2
yeler082 回复勤奋的懒猫: https://blog.csdn.net/qq_36269513/article/details/80420363 参考四个训练阶段当中的三种合并策略

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。