点击上方“小白学视觉”,选择加"星标"或“置顶”
重磅干货,第一时间送达
小白导读
论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。

摘要
跨模式人员再识别(Re-ID)是现代视频监控系统的关键。关键的挑战是根据为一个人呈现的语义信息来对齐通道间表示,而忽略背景信息。在这项工作中,作者提出了一种新的基于CNN的结构AXM-Net,旨在学习语义对齐的视觉和文本表示。底层的构建块由多个来自视觉和文本形式的特征地图流和一个新的可学习的上下文共享语义对齐网络组成。作者还提出了互补的模内注意学习机制,以关注特征中更细粒度的局部细节,以及用于鲁棒特征匹配的跨模态亲和损失。作者的设计在从数据中隐式学习特征对齐的能力上是独一无二的。整个AXM-Net可以以端到端的方式进行培训。作者报告人员搜索和跨模式重新识别任务的结果。广泛的实验验证了所提出的框架,并通过显著地优于当前最先进的方法来证明其优越性。
论文创新点
这篇论文的主要思想是将人的视觉和文本特征结合起来,以实现无缝的跨模式或多模式搜索。为了实现这一点,作者提
AXM-Net是一种新型的跨模式上下文注意力网络,用于行人检测。它通过结合视觉和文本特征,学习语义对齐的表示,抑制背景信息。论文提出自适应跨模态上下文共享语义对齐块(AXM-Block)、模内注意机制和跨模态亲和损失,实现了在行人再识别和搜索任务中的优秀性能。
最低0.47元/天 解锁文章
618

被折叠的 条评论
为什么被折叠?



