AXM-Net:用于行人检测的跨模式上下文注意力网络

AXM-Net是一种新型的跨模式上下文注意力网络,用于行人检测。它通过结合视觉和文本特征,学习语义对齐的表示,抑制背景信息。论文提出自适应跨模态上下文共享语义对齐块(AXM-Block)、模内注意机制和跨模态亲和损失,实现了在行人再识别和搜索任务中的优秀性能。
摘要由CSDN通过智能技术生成

点击上方“小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

小白导读

论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。

摘要

跨模式人员再识别(Re-ID)是现代视频监控系统的关键。关键的挑战是根据为一个人呈现的语义信息来对齐通道间表示,而忽略背景信息。在这项工作中,作者提出了一种新的基于CNN的结构AXM-Net,旨在学习语义对齐的视觉和文本表示。底层的构建块由多个来自视觉和文本形式的特征地图流和一个新的可学习的上下文共享语义对齐网络组成。作者还提出了互补的模内注意学习机制,以关注特征中更细粒度的局部细节,以及用于鲁棒特征匹配的跨模态亲和损失。作者的设计在从数据中隐式学习特征对齐的能力上是独一无二的。整个AXM-Net可以以端到端的方式进行培训。作者报告人员搜索和跨模式重新识别任务的结果。广泛的实验验证了所提出的框架,并通过显著地优于当前最先进的方法来证明其优越性。

论文创新点

这篇论文的主要思想是将人的视觉和文本特征结合起来,以实现无缝的跨模式或多模式搜索。为了实现这一点,作者提

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小白学视觉

您的赞赏是我们坚持下去的动力~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值