2019 ICCV之多光谱行人检测：Weakly Aligned Cross-Modal Learning for Multispectral Pedestrian Detection

最新推荐文章于 2023-11-13 21:53:09 发布

用GAN得有GPU

最新推荐文章于 2023-11-13 21:53:09 发布

阅读量2.4k

点赞数 1

分类专栏：多光谱行人检测多模态文章标签：计算机视觉深度学习人工智能

本文链接：https://blog.csdn.net/qq_41967539/article/details/104950628

版权

本文提出了一种新的AR-CNN模型，用于处理多光谱行人检测中的位置偏移问题。通过Region Feature Alignment模块预测模态间的位移，并采用RoI Jitter Strategy增强定位鲁棒性。Confidence-Aware Fusion则根据模态可靠性动态融合特征，提高检测效果。

摘要由CSDN通过智能技术生成

Weakly Aligned Cross-Modal Learning for Multispectral Pedestrian Detection
当前的问题及概述：
真实的多光谱数据存在位置偏移问题，即彩色热像对没有严格对齐，使得一个物体在不同的模式中有不同的位置。
在本文中，提出了一种新的对齐区域CNN (AR-CNN)来处理端到端的弱对齐数据。
在这里插入图片描述
a是目前数据集弱对齐图示，b为本文的框架思路，c为本文的实验结果。
模型及loss：
2.1.KAIST-Paired Annotation
为了解决位置偏移问题，首先手动标注每种模态上的color-hot pairs bounding box，通过配对标注，可以得到原始KAIST数据集的移位距离统计信息。如下图a中，超过一半的边界框存在位置移动问题，移动距离大多在0到10像素之间。同理，图b为CVC-14数据集。
在这里插入图片描述
2.2 Aligned Region CNN (AR-CNN)网络框架

输入一组彩色地形图和热地形图的pair图像，sense意为被感知的RGB图像，refer