《论文阅读》Style Normalization and Restitution for Generalizable Person Re-identification

留个笔记自用

Style Normalization and Restitution for Generalizable Person Re-identification

做什么

在这里插入图片描述
Person Re-identification行人重识别,给定一个查询图像(即源图像),行人重识别的目标是在多个不重叠的摄像机之间匹配人(即找到与源图像相同的人)

做了什么

在这里插入图片描述
Domain Adaptation Person Re-identification域自适应的行人重识别,常见的重识别的情况可能会遇到人物图像是由不同环境(例如光亮、季节)下的不同相机捕获。它们在照明、色调、色彩对比度和饱和度、质量、分辨率等方面呈现出很大的风格差异。这里采用的方法便是创造一个即插即用的风格归一化、样式化的框架SNR。

怎么做

在这里插入图片描述
显然这里的主要结构就是Style Normalization and Restitution(SNR)框架,实现Re-ID仅仅是在resnet-50的基础上增加了一些SNR模块得到的结果
那么接下来看看具体的结构
在这里插入图片描述
这里的输入记为F,是一个维度为h×w×c的feature map,最后的输出记为F+,维度与F相同,所以是即插即用的
SNR模块也分为了三个部分,Style Normalization Phase(SNP)风格规范化部分,Style Restitution Phase(SRP)风格恢复部分
首先是SNP部分
在这里插入图片描述
首先先经过一个Instance Normalization(IN)结构来归一化,减少特征的域差异。这里的μ是对每个样本通道单独的平均值计算,σ同理是标准差计算,γ和β都是参数,这是很常见的norm方式计算了
在这里插入图片描述
接下来是第二部分SRP部分
首先先将第一部分得到的F~和原F作差值
在这里插入图片描述
这里的R可以理解成原特征和归一化特征间的差异,然后将R分成两个部分,对两个部分做不同的mask处理
在这里插入图片描述
R由上是h×w×c维度的。这里的α是一个可学习的attention向量。是c维度的。则这里的α可以理解为去做一个不同通道下的恢复。也就是根据归一化特征和原特征的差异来对各部分进行不同attention的恢复
这里的a定义为
在这里插入图片描述
具体的计算也很好理解,没有特殊的结构,无非就是FC、pool、sigmoid、relu。这里的理解是通过
然后将提取的身份相关特征R+添加到风格归一化特征F~得到整个模块的最后结果
在这里插入图片描述
接下来是LOSS,这里设计了一个很特殊的LOSS,Dual Causality Loss Constraint双重因果损失约束。主要思想是:在将身份相关特征R+恢复到归一化特征F~之后,该特征变得更有区别性;另一方面,在将与身份无关的特征R重新映射到归一化特征F之后,该特征应该变得不那么有区别
这个LOSS由两个部分组成,想法也跟上面的两个相同
LSNR = LSNR+ + LSNR-
对一个batch。抽出其中的三张图片,包含了原普通图a,同类样本p,异类样本n(这里的同类异类指的是是不是同一ID)
在这里插入图片描述
在这里插入图片描述
两个LOSS的定义方式类似,首先是Softplus=ln(1 + exp(·)) ,显然这里是为了增大loss敏感性的同时防止有负数LOSS的出现,然后是d(x, y) = 0.5 - xTy/(2||x|| ||y||).,这里是带归一化的计算距离的方式,防止过大。这里的fp是Fp即与a相同类的正类样本经过一层pool得到的结果,其他的f同理,带+和-即SNR中不同的结果
简单理解一下这两个LOSS,LSNR+的第一行是为了使正类样本和原图的比较中,附加了身份相关特征的(即正号)比单纯归一化的结果更好,而在负类样本中,附加了身份相关特征的(即正号)比单纯归一化的结果更差,这里的两个LOSS皆是为了使R的作用凸显。
然后结合在这个Re-ID的任务中的LOSS就是总的LOSS
在这里插入图片描述
这里的LSNR存在了四个是因为在Re-ID的网络中插入了4次
在这里插入图片描述
这里就展示了SNR的效果,显然可以很好地区分身份相关/不相关特征

总结

1.即插即用,永远的神
2.因果损失的设计方式值得借鉴

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Deep person re-identification is the task of recognizing a person across different camera views in a surveillance system. It is a challenging problem due to variations in lighting, pose, and occlusion. To address this problem, researchers have proposed various deep learning models that can learn discriminative features for person re-identification. However, achieving state-of-the-art performance often requires carefully designed training strategies and model architectures. One approach to improving the performance of deep person re-identification is to use a "bag of tricks" consisting of various techniques that have been shown to be effective in other computer vision tasks. These techniques include data augmentation, label smoothing, mixup, warm-up learning rates, and more. By combining these techniques, researchers have been able to achieve significant improvements in re-identification accuracy. In addition to using a bag of tricks, it is also important to establish a strong baseline for deep person re-identification. A strong baseline provides a foundation for future research and enables fair comparisons between different methods. A typical baseline for re-identification consists of a deep convolutional neural network (CNN) trained on a large-scale dataset such as Market-1501 or DukeMTMC-reID. The baseline should also include appropriate data preprocessing, such as resizing and normalization, and evaluation metrics, such as mean average precision (mAP) and cumulative matching characteristic (CMC) curves. Overall, combining a bag of tricks with a strong baseline can lead to significant improvements in deep person re-identification performance. This can have important practical applications in surveillance systems, where accurate person recognition is essential for ensuring public safety.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值