详解ReID的各部分组成及Trick——聚合(Aggregation)

       聚合(aggregation)指的是在Backbone输出的特征图聚合成一个特征向量来表征一个目标。,如下图表示的GAP。
在这里插入图片描述


1、Attention pooling

       Attention是近年来比较热门的一个方向,它最初源于computer vision领域,是模仿人类视觉的一个杰出成果。人类的眼睛在观察图像是并不会一视同仁,而是将attention放在真正感兴趣的部分。如果机器可以学会只学习最有用的部分,无疑将大大提高学习效率。这就是attention机制想要实现的。
       Attention最经典的用法是通过一个分支学习mask,并将mask点乘到原图上,将注意力集中在图中可以表征物体信息的位置上。


2、Avg Pooling

       Avg Pooling,也称为Global Avg Pooling,是ReID中最常见的操作之一,将特征全局平均池化为一个特征向量,用该特征向量来表征目标。


3、Max Pooling

       最大池化(max pooling),同理平均池化,在最后输出的特征图中找到值最大的特征向量来表征目标。


4、Gem Pooling

       介于mean pooling和max pooling之间,二者是其特殊形式.通过调节参数p,可以关注不同细度的区域
公式:
在这里插入图片描述
       Pk是可以学习的参数,在pk = 1时为平均池化,在pk趋于无穷的时候为最大池化。


5、R-MAC

       R-MAC(Regional Maximum Activation of Convolutions)来自于2015年发表在cs.CV上的论文《PARTICULAR OBJECT RETRIEVAL WITH INTEGRAL MAX-POOLING OF CNN ACTIVATIONS》,是基于卷积的区域最大激活计算特征向量。
       Backbone网络最后输出为WxHxC大小的图片,R-MAC对此特征提取可以表示为下式:
在这里插入图片描述
       其中Ω代表各个局部区域,p是某一个具体的局部区域,Xi是第i个通道提取特征的算法(如上述的pooling方法),上式计算出了各个通道中值最大的局部区域。
       该方法提取了原始图中最重要的区域,这就是Regional Maximum activations of convolutions (R-MAC),可译为局部最大化卷积激活特征。


6、SPoC

       SPoC操作来自于发表在ICCV 2015的《Aggregating deep convolutional features for
image retrieval》,这个方法用到了加权的方法,对靠近中心的权重给大,对远离的权重给小,再做Avg Pooling。


7、CroW

       CroW来自于ECCVW 2016《Cross-dimensional weighting for aggregated deep convolutional features》一文,提出了一种用于空间和通道的加权池方法。
       空间上的加权方法和SPoC一致,区别在于CroW 使用的深度卷积网络的最后一个池化层的输出,SPoC使用的是最后一个卷积层的输出。SPoC在spatial weighting时,首先使用了中心化操作,CroW则从当层输出的空间激励项spatial activations得到spatial weighting。再通道上,CroW使用的是从通道稀疏中得到 channel weighting(具体获得方式可以去看论文)。


8、局部特征聚合

       发表在ACCV2018的《SCPNet: Spatial-Channel Parallelism Network for Joint Holistic and Partial Person Re-Identification》提出了一个聚合局部特征的方式,如下图所示,将特征进行拼接,并构建相应的损失函数进行学习,这体现在结构上,而不是pooling操作上,是一种非全局的特征聚合方式。
在这里插入图片描述


9、SCDA

       SCDA发表于IEEE TIP 2017的《Selective convolutional descriptor aggregation for fine-grained image retrieval》,主要思想是基于无监督的注意力机制获得每一个特征图的局部描述,再根据特征映射激活的总和保留有用的深度描述符,作为特征向量。在旷视PyRetri开源库中有集成,实际上也是可以应用在ReID的一种特征聚合方法。
在这里插入图片描述

  • 2
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Transformer REID是指在人物重识别(Person Re-Identification,简称ReID)领域中使用Transformer模型进行特征提取和匹配的方法。Transformer是一种基于自注意力机制的神经网络模型,它在自然语言处理领域取得了巨大成功,近年来也被应用于计算机视觉任务中,包括人物重识别。 在Transformer REID中,通过将图像输入Transformer模型,将图像的特征嵌入到一个高维向量空间中。这个向量表示了图像中的人物特征,例如外貌、姿态等。通过计算不同图像之间的向量距离,可以进行人物的匹配和检索。 Transformer REID的优势在于能够捕捉到图像中的全局关系和上下文信息,从而提高人物重识别的准确性和鲁棒性。通过利用Transformer模型的自注意力机制,可以有效地建模图像中的长距离依赖关系,并且能够自适应地学习不同特征之间的关联。 参考文献: TransReID Transformer在ReID领域的第一次全面探索!为更好的利用ReID的数据特性与Transformer的信息嵌入特征,本文提出了两种模块改进SIE与JPM,将ReID的提升到了新的高度。 后台回复:Transformer综述,即可下载两个最新的视觉Transformer综述PDF,肝起来!<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [Transformer再下一城!ReID各项任务全面领先,阿里&浙大提出TransReID](https://blog.csdn.net/amusi1994/article/details/113787801)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值