多模态学习:网络框架

多模态学习:网络结构

论文解读:mmMOT

论文链接:https://arxiv.org/abs/1909.03850
代码链接:https://github.com/ZwwWayne/mmMOT
2019ICCV会议文章:《Robust Multi-Modality Multi-Object Tracking》(具有鲁棒性的多模态多目标跟踪)

  • 面向领域:自动驾驶中的各种视觉感知任务

  • 摘要:多传感器感知是保证自主驾驶系统可靠性和准确性的关键,而多目标跟踪(MOT)通过跟踪动态对象的连续运动来提高其可靠性和准确性。目前的多传感器多目标跟踪方法要么缺乏可靠性,依赖单一的输入源,要么在后期处理中融合多个传感器的结果,而没有充分利用固有信息,不够准确。在本研究中,设计一种通用的多模态MOT框架(mmMOT)。传感器)能够独立地发挥其作用以保持可靠性,并可以通过一种新的多模态融合模块进一步提高其准确性。mmMOT可以以端到端的方式进行训练,对每个模态的基本特征提取器和交叉模态的邻接估计器进行联合优化。mmMOT也首次尝试在MOT中对数据关联过程中的点云深度表示进行编码。

  • 测试集:KITTI数据集上。

  • mmMOT网络结构:

    图片来源:本论文截图

    该网络框架包含4个模块,分别是对象检测器、特征提取器、邻接估计器和最小代价流优化器。
    (1)对象检测器:分别在图像序列中和3维点云数据中定位感兴趣的对象;
    (2)特征提取器:独立地从每个传感器提取对象特征;
    (3)邻接估计器:该估计器与模态无关,接受融合模型中的特征,推导出最小成本流图计算所需的分数;
    (4)最小成本流优化器:根据预测分数获取线性规划最优解。

  • 融合模型

    图片来源:本论文截图

    (1) 具有鲁棒性的融合模型:为了更好地利用多传感器的特征,同时保持跟踪每个传感器的能力,我们的鲁棒融合模块被设计成具有融合多模态特征的能力,以及从单一模态处理原始特征的能力;假设不同模态的特征向量表示为 F S = F i s F^S = {F^s_i} FS=Fis,其中S表示传感器个数,融合特征向量表示为 F i f u s e F^{fuse}_i Fifuse。不同模态的特征向量和融合特征向量大小保持一致,大小均为 1 × D × ( N + M ) 1 \times D \times (N+M) 1×D×(N+M),其中D=512为向量长度,N+M为两帧间检测到的目标数。融合模型输出不同模态特征 F S F^S FS和融合特征 F i f u s e F^{fuse}_i Fifuse
    (2)融合模型A:一种常见的方法是将这些特征串联起来,使用点向卷积与权值W来调整输出向量的长度,使其与单个传感器的特征相同,如下所示:
    F i f u s e = W
  • 0
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值