attention retain_Attention-Aware Compositional Network

最新推荐文章于 2021-01-12 23:52:33 发布

weixin_39653311

最新推荐文章于 2021-01-12 23:52:33 发布

阅读量176

点赞数

文章标签： attention retain

本文链接：https://blog.csdn.net/weixin_39653311/article/details/111779809

版权

Author: CFhM_R

Mail: CFhM_R@outlook.com

写在前面

本文介绍了一种Re-ID中利用part和pose信息来提升accuracy的方法，一个highlight是使用了关键点技术，也恰如作者在文中给出的 state-of-art 的评价，该方法巧妙地解决了传统的RoI方式进行part采样导致的干扰过多的问题，并且在网络结构上也有一定的创新。

传统方法的问题

文章开篇即阐述了传统的Re-ID面临的问题：复杂的背景、多样的光照条件、不可控的相机设置参数、严重的遮挡关系以及多变的姿态，而观测角度的不同和pose的差异会使传统的分格或分区(patches and stripes)的part alignment方式产生较大的误差，即有种不能”因地制宜“的感觉。

RoI Issues

文章也举出了简单的例子：如下图中对同一个id的probe和gallery的leg-part的选取，可以发现(b)中的人物的腿部框选区要明显更加符合”leg“的设定，和这也是局限于目前的patches / stripes / RoI 方法都是以矩形框作为采样区域，同时带来的还有(a)中大量北京因素对part info的干扰。

而本文中提出的方法则是使用Pose-guided Part Attention来代替传统的RoI，可以很好的解决背景因素以及相邻的肢体带来的干扰，一个简单的demo如下图(c)彩色区域所示。

遮挡物带来的问题

遮挡物对于行人检索的影响有积极也有消极，所以要分开去看。如下图中的例子，首先(d)中遮挡指的是手臂对躯干的遮挡，而躯干衣服上的logo可以作为这一对轨迹识别的feature的主要来源(by means)，因此此时手臂的遮挡就产生了negative的影响；而相反的例子则是(f)中的背包，它对躯干这个part造成了完全的遮挡，但是背包恰恰成为了这个id的一个凸显的特征，因此这个背包带来的是positive的影响。

文章对遮挡采取3种处理措施：对带来消极影响的遮挡物采取的自然是弱化其在最终的feature map中的权重，而弱化的”度“又分两种对于(f)中的手臂对躯干的遮挡，由于没有完全遮挡，因此这部分仅仅是"弱化"(weaken)

对于(e)中，pose的改变导致躯干消失，变为背部，可以理解为一种完全的遮挡，文章采取的处理方式是”消除“(eliminate)

对产生积极影响的自然采取的是”保留“甚至提升比重(retain)

Attention-Aware Composition Network

综上所述，为了解决行人检索中part信息无法对应对齐(misalignment)以及遮挡物的问题(occlusions)，文章提出了AACN这样一种网络结构，如下图。

可以看到AACN大体分两个部分，上部为Pose-guided Part Attention 模块，用于提取Part信息，下面则是AACN的主体，Attention-aware Feature Composition Model，AFC部分会先抽取整个图片的feature，再结合PPA给出的attention信息和visibility score来调整part的权重，最终得出轨迹的feature map。

Pose-guided Part Attention

文章将人体的part分为两个部分——rigid part 和 non-rigid part，即可形变和不可形变(不知道怎么翻译了……)部分，non-rigid part包含四肢和脖子，rigid part则是头肩、上半躯干以及下半躯干(腰到膝盖)，详见图。

PPA参考了RPN提供的关键点分类，定义了人体的14个关键点，并通过关键点的连线以及关键点围成的凸包来确定各个part，通过神经网络在ground-truth周围学习part的大致范围，最终可以如上图demo中给出的样子较准确地描绘出part所在的区域，减少了大量的干扰信息。

由此PPA分出了3支，分别学习关键点信息、rigid part 和 non-rigid part 的信息，而PPA整体分两个部分，第一部分是独立的预测上述三部分的信息，给出结果。而第二部分则是对第一部分的三类结果进行融合修正，给出最终的结果。

关键点信息的ground truth由MPII的datasets定义的14个关键点标准给出，方法是在标准位置周围的高斯分布(正态)生成ground truth范围，并且计算MSE作为Loss。

non-rigid part的ground truth 为指定的两关键的连线的宽度为的一段，attention map为01矩阵。

rigid part的ground truth为指定关键点点集的凸包，attention map同样是01矩阵。

最终还要产生一个visibility score来辅助权衡各个part的权重，由各个部分的attention map的”强弱“来体现。

Attention-Aware Feature Composition

Global Context Network

AFC部分最开始是一个很base的网络用来抽取全局的feature，文章采用的是GoogleNet，比较trick的改动的是在inception_5b/output层后加了一个128通道的的卷积层，输入图片大小为，可以看到比一般广泛采用的要大，可以推测这样改动也是为了获得更好的视域，来适应RPN的关键点(避免太过密集等等)。

Attention-Aware Feature Alignment

Global feature map和Part feature map的融合文章采用了一种看起来很”粗暴“的方法——G-feature和每个P-feature(128通道，经过max-归一化的)做H-Product，之后进行globally average pooling1 ，将Part p的feature maps变成该part的一个特征向量，最后将各个part的向量连接起来就是最终的向量。

[1] 出自network in network，为了解决全连接问题，简单说就是将feature map所有的特征值均一池化得到一个特征点，最后将这些点组成一个特征向量送进softmax计算。

Weighted Feature Composition

考虑到各个part所占的比重随着pose、遮挡情况应当不同，文章将attention map和visibility score连接后通过一个全连接层(用1*1卷积层实现的)来生成一个权重向量，最终的feature 由，其中指卷积操作，为各个part的迭代变量，作者对这部分的讲述并不详细。

weixin_39653311

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
attention retain_Attention-Aware Compositional Network

Author: CFhM_R Mail: CFhM_R@outlook.com写在前面本文介绍了一种Re-ID中利用part和pose信息来提升accuracy的方法，一个highlight是使用了关键点技术，也恰如作者在文中给出的 state-of-art 的评价，该方法巧妙地解决了传统的RoI方式进行part采样导致的干扰过多的问题，并且在网络结构上也有一定的创新。传统方...
复制链接

扫一扫