多模态学习:网络框架

最新推荐文章于 2024-06-07 02:04:17 发布

AraSauHan

最新推荐文章于 2024-06-07 02:04:17 发布

阅读量2.1k

点赞数

文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/qq_42018838/article/details/103722540

版权

多模态学习：网络结构

论文解读：mmMOT
代码解读：mmMOT

论文解读：mmMOT

论文链接：https://arxiv.org/abs/1909.03850
代码链接：https://github.com/ZwwWayne/mmMOT
2019ICCV会议文章：《Robust Multi-Modality Multi-Object Tracking》（具有鲁棒性的多模态多目标跟踪）

面向领域：自动驾驶中的各种视觉感知任务
摘要：多传感器感知是保证自主驾驶系统可靠性和准确性的关键，而多目标跟踪(MOT)通过跟踪动态对象的连续运动来提高其可靠性和准确性。目前的多传感器多目标跟踪方法要么缺乏可靠性，依赖单一的输入源，要么在后期处理中融合多个传感器的结果，而没有充分利用固有信息，不够准确。在本研究中，设计一种通用的多模态MOT框架(mmMOT)。传感器)能够独立地发挥其作用以保持可靠性，并可以通过一种新的多模态融合模块进一步提高其准确性。mmMOT可以以端到端的方式进行训练，对每个模态的基本特征提取器和交叉模态的邻接估计器进行联合优化。mmMOT也首次尝试在MOT中对数据关联过程中的点云深度表示进行编码。
测试集：KITTI数据集上。
mmMOT网络结构：

图片来源：本论文截图

该网络框架包含4个模块，分别是对象检测器、特征提取器、邻接估计器和最小代价流优化器。
（1）对象检测器：分别在图像序列中和3维点云数据中定位感兴趣的对象；
（2）特征提取器：独立地从每个传感器提取对象特征；
（3）邻接估计器：该估计器与模态无关，接受融合模型中的特征，推导出最小成本流图计算所需的分数；
（4）最小成本流优化器：根据预测分数获取线性规划最优解。
融合模型 ：

图片来源：本论文截图

（1）具有鲁棒性的融合模型：为了更好地利用多传感器的特征，同时保持跟踪每个传感器的能力，我们的鲁棒融合模块被设计成具有融合多模态特征的能力，以及从单一模态处理原始特征的能力；假设不同模态的特征向量表示为 $F^S = {F^s_i}$ ，其中S表示传感器个数，融合特征向量表示为 $F^{fuse}_i$ 。不同模态的特征向量和融合特征向量大小保持一致，大小均为 $\times D \times (N+M)$ ，其中D=512为向量长度，N+M为两帧间检测到的目标数。融合模型输出不同模态特征 $F^S$ 和融合特征 $F^{fuse}_i$
（2）融合模型A：一种常见的方法是将这些特征串联起来，使用点向卷积与权值W来调整输出向量的长度，使其与单个传感器的特征相同，如下所示：

最低0.47元/天解锁文章

AraSauHan

关注

0
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
多模态学习:网络框架

网络一：MultiNet++论文链接：https://arxiv.org/abs/1909.03850代码链接：https://github.com/ZwwWayne/mmMOT.2019ICCV会议文章：《Robust Multi-Modality Multi-Object Tracking》（具有鲁棒性的多模态多目标跟踪）面向领域：自动驾驶中的各种视觉感知任务摘要：多传感器感...
复制链接

扫一扫