CM-NAS: Cross-Modality Neural Architecture Search for Visible-Infrared Person Re-Identification

CM-NAS: Cross-Modality Neural Architecture Search for Visible-Infrared Person Re-Identification(CM-NAS:用于可见-红外行人重识别的跨模态神经结构搜索)

期刊合集:最近五年,包含顶刊,顶会>>网址
文章来源:ICCV2021
复现代码:点这里

研究背景

 为减轻跨膜态行人重识别任务中模态差异所带来的影响,现有研究是采用手动设计多种双流架构来学习模态特定特征和模态共享表示,这会极大的依赖于大量实验和经验实践,非常耗时。本文系统地研究了手动设计的架构,并发现适当地分离批处理规范化(BN)层是跨模态匹配任务的关键,基于这一观察,提出了跨模态神经结构搜索(CMNAS)的方法,它由一个面向BN的搜索空间组成,在该搜索空间中,可以根据跨模态任务完成标准优化。哪些层应该被分成两个分支,哪些层应该共享?这是本文所研究的问题。

论文分析

跨模态神经结构搜索主框架

在这里插入图片描述
上端:主干网ResNet50的架构,包括5个阶段,‘s2x’表示阶段2中的第x个ResBlock。ConvBlock包含有一个卷积层、一个BN层和一个ReLU层。ResBlock总共包含三个卷积层、三个BN层和三个ReLU层。
下端:与上端的区别就在于第一个完整块(ConvBlock)被分成两个分支,分别用于VIS和IR图像。
由于对最佳架构缺乏共识,经过系统研究并且评估不同架构设计的影响,在以BN层为单位执行分离的过程中,有两个发现:1、仅在块中分离BN层优于分离整个块;2、分离两块BN层通常优于分离单个BN层。从发现可以得出,适当地分离BN层是跨膜态可以为跨模态匹配带来巨大推动。
在这里插入图片描述
只分离一个块:(a)描述了所有潜在架构的结果以及一个基线(共享整个架构而不分离)。可以从图中发现三个观察结果。1)基线通常比分离一个块表现更差,这表明分离块以学习模态特定表示的必要性;2)分离不同的块会产生不同的性能。例如,当分离整个块时,“s41”和“s51”分别导致最佳和最差结果,这意味着需要在设计的过程中仔细对待每一层,不同层的分离会有不一样的效果;3)分离块中的BN层比分离整个块更合适,因为在所有分离方案中,前者(红线)比后者(蓝线)获得更好的结果。
分离两个快:(b)-(f)显示了分别在阶段1-5中固定地分离一个块时,然后遍历其余阶段以分离另一个块的结果,并且首先分离出一个块的性能作为基线结果,可以和其他方法进行比较。从这些结果中可以看出,分离两个块通常优于分离单个块,特别是只分离块中的BN层时(红色折线)。
通过以上分析得出,分离出BN层会提高匹配性能,文章就是基于这一点展开研究,发现了一种新的CM-NAS来自动找到最佳架构,而不用手动遍历的方式。

Cross-Modality NAS(跨膜态神经架构搜索)

在这里插入图片描述
Search Space
针对于哪些BN层应该分离以及哪些BN层应当共享这个问题,文章设计了一个面向BN层的搜索空间,主干中的所有BN层都被重塑为可搜索单元,每个BN层都有两个候选操作:使用单独的或共享的参数。如果BN层选择前者,该BN层将具有两个单独的参数,分别从VIS和IR数据中学习。否则,该BN层将共享从两种数据模式中学习的参数。
让o1和o2分别表示上述两个候选操作。在每个BN层l中,我们将架构参数αlo1分配给操作o1,将αlo2分配给剩余的操作o2。当αlo1=1和αlo2时,这意味着BN层l使用单独的参数,否则BN层l共享其参数。在实际过程中,还扩大了搜索空间,使其通过梯度下降进行优化,然后通过计算所有架构参数上的softmax来获得选择相应操作的概率:
在这里插入图片描述
pl值越大,BN层l选择操作oi的可能性越大。BN层l的输出是所有可能操作的加权和:
在这里插入图片描述

其中oi(xl)表示操作oi被应用于输入xl。在这种情况下,搜索任务就变成了学习一组架构参数α={αloi}集合。
由于还需要学习网络权重w,因此还需要解决双层优化的问题:
在这里插入图片描述

搜索最小化验证损失 Lval(w*, α*) 的架构参数α*,其中网络权重 w* 是通过最小化训练损失 Ltrain(w, α)获得的。训练后,对于每个 BN层l,就可以选择概率较大的操作并放弃另一个操作,从而产生离散架构。例如,当 plo1 > plo2 时,我们将选择操作 o1,即在 BN 层 l 中使用两个单独的参数。可以发现,训练和验证损失在搜索过程中起着至关重要的作用。

Objective Function
CM—NAS不单是BN层进行分离,还设计了适当的目标函数,以更好地指导跨模态搜索过程。类别特定的最大平均差异(CMMD)是模态差异的常用度量:
在这里插入图片描述
随后,鉴于特征相关性的重要性,还限制了VIS和IR模态特征之间的相关性一致性。
嵌入特征集:
在这里插入图片描述
在这里插入图片描述
逐行L2归一化处理
在这里插入图片描述
其中符号[i,:]表示矩阵中的第i行。
进一步开发了相关性一致性损失LCC,以惩罚Gvis和Gir之间的差异:
在这里插入图片描述
这里||·||F表示Frobenius范数。
对LCMMD 和 LCC 相加可得:
在这里插入图片描述
其中λ1和λ2是权衡参数。目标函数还包括基本损失Lbasic,其由分类损失Lcls和三重损失Ltriplet组成,以学习嵌入特征,损失如下:
在这里插入图片描述

同理,验证损失Lval也可这样得出。

实验结果

在这里插入图片描述
SYSU-MM01和RegDB数据集的比较结果如表1所示,有五个观察结果。首先,用IN代替BN会导致性能下降,这是因为尽管IN可以通过改变风格来最小化模态差异,但它也会带来辨别信息的丢失。其次,双流方法比单流方法性能更好,这意味着分离块的必要性。最后,仅分离块中的BN层优于分离整个块,这表明BN层在学习跨模态表示中的重要性,促使开发一种面向BN的搜索算法,以自动决定BN层的分离。
在这里插入图片描述

结论

本文提出了一种新的CM-NAS来解决具有挑战性的VI ReID。我们系统地研究了人工设计的神经结构,发现适当地分离BN层可以产生更好的性能。
这促使我们开发一种面向BN的NAS算法,该算法能够自动决定BN层的分离,搜索最佳架构。在两个流行数据集上的大量实验证明了CM-NAS的优越性。我们期望这种简单而有效的方法将为未来VI ReID的研究提供坚实的基础。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

JJxiao24

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值