计算机视觉定会排名,10篇计算机视觉顶会看Attention机制最新进展:涉及分类,定位,分割,多模态,Gra......

来源:https://zhuanlan.zhihu.com/p/130388873作者:一块小蛋糕

编辑:深度传送门本文主要总结了最新的关于attention的应用文章。1.Attention-based Dropout Layer for Weakly Supervised Object Localization(CVPR19)任务:弱监督的物体定位:只给定图像类别的标签,要求定位出目标所在的区域。动机:只给定物体类别的话,网络往往只关注最具有判别性的信息,无法挖掘到整个物体信息。能否设计一种drop操作,每次迭代时drop最具判别性的信息,强迫网络关注其他的区域?做法:代替之前采用CAM得到特征的热力图,模型使用(channel-wise pooling)直接生成热力图。采用一个设定的阈值,得到一个drop mask。

2.Visual Attention Consistency under Image Transforms for Multi-Label Image Classification (CVPR19)任务:多标签图像分类问题动机:数据增广被广泛用于图像分类任务,但是数据增广存在缺陷。图像的一些变换(如旋转)应该是比较渐层能学习到的,但是在一般使用数据增广的策略中,都只是使用最后loss来对这种变换进行学习。能否对数据增广学到的特征图进行约束。方法:采用两分支结构。输入原始图像I和转换后的图像T(I),利用CAM得到两个特征图的热力图,约束I的热力图经过T的转换后与T(I)的热力图相同。即图像数据增广后仍然关注同样部件的区域。

3.AttPool: Towards Hierarchical Feature Representation in Graph Convolutional Networks via Attention Mechanism (ICCV19)任务:定义了一个graph pooling操作。方法:对于一个有N个节点的图(N,D),首先预测每个节点的得分(N),然后选择前K个节点(K,D),对这K个节点利用全部的N个节点进行更新(GCN)。问题:和之前的文章Self-Attention Graph Pooling思想和做法很像,加了一步更新操作。

4.Group-wise Deep Object Co-Segmentation with Co-Attention Recurrent Neural Network (ICCV19)任务:图像组间的共有物体的定位。做法:设计了类似GRU的单元,设定了更新门和重置门,不断的更新隐单元g,使其融入了所有图像的信息,然后返回来指导每个图像的预测生成。

5.End-to-End Multi-Task Learning with Attention任务:多任务学习动机:对于多任务学习,应该有任务共享的特征和任务特定的特征。对于任务共享的特征可以通过在所有任务上学习得到。那么如何得到任务特定的特征呢?方法:对于每个任务学习一个attention,作为特征选择器,选择与该任务相关的特征。

6.See More, Know More: Unsupervised Video Object Segmentation with Co-Attention Siamese Networks (CVPR19)任务:无监督的视频物体分割做法:提出了一个co-attention模块,将相邻帧对齐,并将F1(F2)帧的信息整合到F2(F1)上。问题:用在视频reID上,相邻帧进行对齐后,再进行特征整合。

7.Improving Referring Expression Grounding with Cross-modal Attention-guided Erasing (CVPR19)任务:跨模态的检索。给定一个语句描述,检索出图像的那个框是与之对应的。动机:图像与语句之中可能存在多个对应关系,但是现有方法往往会过多的关注最具有判别性的对应关系。能否有一种机制,迫使网络可以关注更多的对应关系。做法:擦除最具有判别性的语句或者图像区域。

8.Cross-Modal Self-Attention Network for Referring Image Segmentation任务:跨模态分割,给定一个语句描述,分割出图像对应的物体区域。做法:设计了一个扩模态的self attention机制,即对于query,key, value融入了图像特征和语句特征。

9.Mask-Guided Attention Network for Occluded Pedestrian Detection (ICCV19)任务:遮挡的行人检测做法:遮挡会对行人检测的性能产生较大的影响。对于特征,生成一个空间mask,mask掉遮挡区域的特征。利用可见的bounding box监督mask的生成。

10.Looking for the Devil in the Details: Learning Trilinear Attention Sampling Network for Fine-grained Image Recognition (CVPR)动机:如何自适应地并且无监督的定位出物体各个部件的区域。每个channel可以响应一个特定的物体,但是单个channel的噪声大。能否整合channel使其可以定位出目标物体做法:利用self-attention的思想,加强每个channel的特征。X为(C,N)

.此时每个channel可以看做一个空间注意力图,对应一个指定的部件。

关于深度学习与图网络关注图网络、图表示学习,最近顶会顶刊动态以及机器学习基本方法,包括无监督学习、半监督学习、弱监督学习、元学习等。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值