VAC： Visual attention consistency under image transforms for multi-label image classification

After 96

于 2022-03-01 20:43:33 发布

阅读量2.1k

点赞数 1

分类专栏：行人属性识别文章标签：深度学习计算机视觉 cnn

本文链接：https://blog.csdn.net/after_996/article/details/123186804

版权

行人属性识别专栏收录该内容

3 篇文章 0 订阅

订阅专栏

摘要： 图片的改变可以作为增加数据集训练集的一种方法，在此基础上，研究发现经过图片翻转后，对于图片的注意力，和相对识别部分的热度图并没有太大改变。基于此，输入翻转前和翻转后的两类图片，在生成一个损失函数来衡量这二者间注意热图的一致性。然后将这种新的损失与多标签图像分类损失相结合，进行网络训练。在三个数据集上的实验验证了该网络的优越性，取得了新的分类性能。
**引言：**输入两个图片，一个是原始图片，一个是以原始图片翻转后的图片。作为两个分支branch，每个分支的输出是一个预测值。使用 Class Activation Mapping (CAM)来对每个标签计算注意力热度图
其损失函数就是用以衡量原始图片和修改后图片的注意力热度的差距。
在一下三种数据集上跑WIDERAttribute [34], MS-COCO [35], and PA-100K [36].
ablative study 采取消融实验验证
SRN. 能明确标签间的空间关系通过学习热力图，但每个标签间的热力图相关性却无法得知
其解决方案教复杂，没看懂。。
为了解决这个问题，一个简单的想法是学习类似于语义分割[37]和显著性检测[64]的精确注意区域，这需要不可行的像素级注释。减少注释工作量的一个潜在解决方案是眼球跟踪[42]，由于没有明确定义的标签相关区域，这是来自不同观察者的噪声和不一致

**推荐的方法：**由背景、推荐网络、图片更改三个部分组成
一、背景
1.类激活映射Class activation mapping 对关键部分进行定位
传统的CNN网络，ResNet [20], DenseNet [23],和Inception.
都是从卷积层开始
特征图 F ∈ RC×H×W
where C, H, W are the number of channels, height, andwidth of the feature maps, respectively
全连接层权重W ∈ RL×C (L is the numberof labels),
CAM computes the attentionheatmaps by linearly weighted sum of all channels:
在这里插入图片描述
2、 Multi-label image classification loss

we adopt the weighted sigmoid cross entropy loss i

在这里插入图片描述

二、推荐网络
在这里插入图片描述
如图，分类器的好坏都是由其注意力热图区域随着迭代次数的增加是否和目标属性成相关，且由分数的输出
但是注意力热图的问题需要一定的监督学习来支持，这不现实。如果需要人工来标注相关区域和属性间关系的话，人们的意见是不同的比如年纪在18到60之前这个概念。
我们提出注意力视觉一致性算法来处理这个问题。

3图片变化
图片的改变也是要遵循一定的原则的，起码人类要看的懂也就是视觉感知不变，把这类图像的变化统一放在一个集合U里面，主要还是这几个translation, rotation, f lipping, scaling，但是图片缩放到太小了，也会影响到人的观感，所以对其缩放设定了一定的参数。
此方法区别与数据增强，数据增强注重在高层的注意一致性，而本文方法重在中间层。且中间层的影响要大于高层，从而达到更好的效果。
CAM由公式一得到
translation, rotation, f lipping, scaling

After 96

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
VAC： Visual attention consistency under image transforms for multi-label image classification

摘要：图片的改变可以作为增加数据集训练集的一种方法，在此基础上，研究发现经过图片翻转后，对于图片的注意力，和相对识别部分的热度图并没有太大改变。基于此，输入翻转前和翻转后的两类图片，在生成一个损失函数来衡量这二者间注意热图的一致性。然后将这种新的损失与多标签图像分类损失相结合，进行网络训练。在三个数据集上的实验验证了该网络的优越性，取得了新的分类性能。**引言：**输入两个图片，一个是原始图片，一个是以原始图片翻转后的图片。作为两个分支branch，每个分支的输出是一个预测值。使用 Class Acti
复制链接

扫一扫