CVPR2019-行人重识别-Interaction-and-Aggregation Network for Person Re-identification

最新推荐文章于 2020-12-17 15:46:51 发布

再困也得吃

最新推荐文章于 2020-12-17 15:46:51 发布

阅读量478

点赞数

分类专栏：行人重识别

本文链接：https://blog.csdn.net/weixin_38208912/article/details/104526773

版权

13 篇文章 4 订阅

订阅专栏

动机：

本文是一篇基于attention的文章，通过channel 和 postion 两个层面得到feature mask，用于得到更有鉴别性的feature。

Spatial Interaction-and-Aggregation (SIA)：这里涉及到三个种相关性关系：Appearance Relations，Location Relations和semantic relations.作者分析着重讲解了Appearance Relations。相同卷积层的对应相同的感受野，但是样本大小不同，不同样本对应同一part的大小不同，同一样本随姿态变化，同一part也会变化，所以对于同一feature map要采用不同尺寸的patch以满足同一位置不同尺寸的part。

对于Appearance Relations，同一个featuremap，对每一个位置提取K×K尺寸的patch对应相乘，从而得到一个等大小feature后，之后再采用不同的K，比如1，2，3……N，得到N个feature mask，之后再将其点乘，得到最后的feature mask
对于Location Relations，这个从公式就很好理解，如果两个点的对应特征向量越相似，那么两个点之间，求二维高斯函数的响应就会越大。
对于semantic Relations，就是将Appearance Relations，Location Relations融合。

Channel Interaction-and-Aggregation (CIA) module.这个很好理解，就是普通的Channel attention，因为不同层对应的语义信息不同，所以通过得到channel的相关矩阵，从而得到channel的feature mask

方法就是通过reshape操作，将原C×H×W的矩阵转换成C×(H×W)和(H×W)×C两个矩阵，这两个矩阵相乘后得到C×C，之后再与C×(H×W)相乘，reshap，得到C×H×W大小的feature mask

在这里插入图片描述
框架结构：单流结构
特征：通过SIA和CIA得到的特征
损失函数：CE loss
backbone：resnet50，在不同层之间添加attention module

对比了feature的融合方法，影响不大
在这里插入图片描述
对比了不同的相关矩阵应用到feature mask，结果是semantic Relations效果最好。

对比了不同patch大小对的影响，太大和太小结果都不好，所以采用一个适中的size

在主流数据集上的结果

关注