自监督论文阅读笔记There is More than Meets the Eye: Self-Supervised Multi-Object Detection and Tracking with

论文阅读笔记:There is More than Meets the Eye: Self-Supervised Multi-Object Detection and Tracking with Sound by Distilling Multimodal Knowledge
       目标固有的 声音属性 可以为学习目标检测和跟踪的丰富表示提供有价值的线索。此外,视频中 视听事件的共现 可用于通过 仅监控环境中的声音来 定位 图像场上的目标。
       本文提出了 新的自监督 MM-DistillNet 框架,该框架由 多名教师组成,他们利用包括 RGB、深度和热图像在内的多种模式,同时利用 互补线索 并 将知识提炼到单个音频学生网络中。本文提出了 新的 MTA 损失函数,它有助于 以自监督的方式 从多模态教师中提取信息。此外,我们 为 音频学生 提出了一种 新的自监督前置任务,不依赖手动注释。
       大量实验表明,本文方法优于最先进的方法,同时能够 在推理期间 甚至在移动时 仅使用声音 来检测多个目标。
       视频中 图像和音频等模态的 自然共现 为监督提供了强有力的线索,可以利用这些线索 以自监督的方式 学习更强大的感知模型。
       图1:本文提出的 跨模态 MM-DistillNet 将利用来自 多模态视觉教师的 互补线索的知识 提炼到音频学生中。在推理过程中,模型 仅使用音频 作为输入 来检测和跟踪视觉框架中的多个目标。
       
       场景中物体 固有的声音属性 还包含 丰富的时域和频域信息,这些信息对于在视觉场景中建立声音很有价值。声音的特征与视觉信息是互补的并相关的[40]。
       从图像和声音中进行跨模态学习利用了代表同一事件的 视听流之间 的这种 自然对应关系。因此,声音与视觉的整合 使我们能够 使用一种方式来监督另一种方式,以及 使用两种方式来共同监督对方。
       通过使用 师生策略[22] 共同利用 视听学习 来训练模型来识别产生声音的对象,而无需依赖标记数据。可以利用这种 视听同步性 来检测和跟踪视觉框架上的对象。
        MM-DistillNet 由多个教师网络组成,每个教师网络都 以特定的模式 作为输入,为此我们使用 RGB、深度和热 来 最大化 我们可以利用的 互补线索(外观、几何、反射率)。教师们首先 接受了针对各种预先存在的数据集的单独训练,以预测其各自模式中的边界框。然后,我们训练 音频学生网络 以学习 从 麦克风阵列 到 组合的教师预测的边界框坐标 的声音映射,仅在未标记的视频上。
       为此,本文提出了新的 多教师对齐 (MTA) 损失,以 同时利用 互补线索 并以自监督的方式将来自多模态教师的目标检测知识 提炼到音频学生网络中。
       在推理过程中,音频学生网络 仅使用声音作为输入 来检测和跟踪视觉框架中的目标。此外,我们提出了一个自监督的前置任务 来初始化音频学生网络,以便不依赖手动注释并加速训练。
       本文首次展示了在视觉框架中 从 仅使用声音作为输入,没有任何元数据,甚至在环境中移动时检测和跟踪目标的能力。
       另一组方法利用自监督,不依赖任何手动注释。这些方法利用 视听同步性 并同时使用另一种对应模态学习一种模态的表示。
       与本文的工作更相关的是 使用 视听对应关系 和 视觉数据 作为监督信号 的方法,用于在给定的视觉输入中定位声音。 MM-DistillNet 仅使用 来自麦克风阵列的 声音 在视觉帧 中执行目标检测和跟踪,从而允许系统在不使用任何相机姿态信息 同时在环境中移动的情况下 同时检测多辆车辆
       为了减少真值标签的依赖性,本文利用 模态的共现 作为一种自监督机制来获得真值注释。如 RGB、深度和热图像,通过 在输入或特征级别 融合它们 来利用互补线索。此外,添加新的模态也增加了标记工作,这些融合技术通常需要在推理期间 所有模态都存在,这两者都会 增加整个系统的开销
       与这些技术相反,本文提出了一种方法,将来自多个预训练的特定于模态的教师网络的知识整合到一个音频学生网络中,该网络从未标记的视频中学习,并且只在推理过程中使用音频。我们的方法在训练时 利用替代模式的互补特征,以 提高整个系统的鲁棒性,而 不增加推理的开销。
       除了生成伪真值标签之外,我们还使用 特定于模态的教师网络 通过 知识蒸馏 来 指导音频学生网络的训练。本文通过 对齐损失函数 从中间层传输知识。本文 从多位教师那里提取知识。然而,本文的框架不仅仅是 平均教师之间的双重损失,而是 使用概率方法 对齐中间师生层的特征。给定一组同步模式的条件知识可以提高学生网络的性能。
       本文中,每个特定模态的教师都将目标检测知识 提炼给音频学生,这可以归类为 跨模态知识蒸馏
       这些方法需要在训练和推理期间的 所有模式。而本文的框架 旨在解开推理期间对所有模式的需求。
       本文的方法从 目标级别对齐的 特定模态教师那里提取知识,因此使用我们提出的 MTA 损失和焦点损失 将来自 共同任务 的信息 提炼成互补模态
       MM-DistillNet 框架用于 将知识从一组预先训练的多模态教师中 提取到一个使用 未标记模态 作为输入的 单个学生中。我们选择 RGB、深度和热图像作为教师模态,并将 8 通道单声道麦克风阵列中 作为学生的音频模态。目标是学习 从 环境声音的频谱图 到 指示车辆在视觉空间中的位置的边界框坐标 的映射。
       
       图 2 所示的框架中,每个预训练的特定模态教师预测边界框,这些边界框指示车辆在各自模态空间中的位置。融合这些预测以获得 单个 多教师预测,然后将其用作训练音频学生网络的 伪标签
       多教师对齐(MTA)损失 来 对齐 学生的中间表示与教师的中间表示。
       
       本文的框架 不依赖于特定的教师架构,因为可以很容易地 将可选的目标检测网络 合并为即插即用的替代品。
       由于本文的音频学生网络的 输入 是一个 8 通道频谱图,不能利用 通常将 3 通道图像作为输入的 为图像检测训练的模型的 预训练的权重 来初始化 EfficientDet 架构。自监督的前置任务通过利用数据本身的监督信号来学习语义丰富的表示,甚至优于使用预训练权重初始化的模型。
       本文为音频学生提出了一个简单的前置任务,该任务 计算场景中存在的汽车数量
focal loss相当于增加了难分样本在损失函数的权重,使得损失函数倾向于难分的样本,有助于提高难分样本的准确度。 focal loss从样本难易分类角度出发,解决样本非平衡带来的模型训练问题。 )
       在某些场景中,每个特定于模态的教师 预测不同数量的边界框。因此,我们需要 固定这些预测。我们获得了来自 RGB、深度和热教师的三组元组,这些元组 使用非极大值抑制 与联合 IoU = 0.5 的交集进行合并。这会从特定于模态的教师那里 产生一个统一的预测,用focal loss强加给学生。
       焦点损失是交叉熵损失的一种形式,带有一个惩罚参数,可以减少分类良好的示例的相对损失,使网络能够 专注于难以分类的训练示例
       MTA 损失,目标是利用 包含在每个特定模态教师的 中间层中的互补线索。我们通过 使学生和多位教师的特定层中的 激活分布保持一致 来训练学生网络。特别是,本文 强制对齐 EfficientNet 主干的 (p3, p4, p5) 层。为此,我们使用 归一化到 [0,1] 范围的 每一层的注意力图 来计算激活的分布。
               本文将 学生注意力图 计算为,其中 avg 是一个函数,它通过 给定层 j ∈ {P3,P4,P5} 的 神经元输出的平均值 在其通道维度上 折叠激活张量 A ,并且 r 是向量的每个第 i 个元素的指数,这是一个超参数,用于权衡 给定层的高值激活与低值激活的重要性
               激活分布 表示 给定输入模态 mi 的每个教师的置信度,中间表示 很有可能检测到车辆的相关关键指标。通过 选定层的 特定模态的 激活分布的乘积 来利用多个教师的注意力图。
              
               这个想法背后的直觉是 将每个特定模态的老师的知识 融入到渐进的方法中。如果多个模态就一个边界框达成一致,则鼓励该提议的概率。模态也可以 以小概率提出不相交的边界框,允许学生学习特定模态独有的边界框
               
               MTA 损失 集成了不同的模态,使不同输入的一致性得到特权,同时仍然考虑由一种模态提出的车辆预测。
                其中 Ltotal 在输出端以及中间网络层 强制要求教师进行知识转移
       跟踪:本文将 IoU 阈值设置为 0.5,以将来自不同时间步长的 两个边界框分配给同一目标。每次检测到置信度分数高于 0.8 的目标时,我们都会初始化一个 tracklet。
       MAVD数据集:由于没有由同步音频、RGB、深度和热图像组成的公开数据集,我们在自动驾驶场景中收集了一个大规模的 多模态视听检测 (MAVD) 数据集。为了 捕捉不同的噪音条件,我们不仅在传统的城市驾驶过程中记录了声音,而且还在有轨电车附近和通过隧道时记录了声音。
       性能比较
       • 将MM-DistillNet 与 StereoSoundNet [19] 的性能进行了比较,后者使用具有 Ranking loss 的单个 RGB 教师将信息提取到音频学生网络中。
       • 2M-DistillNet Audio 使用单个 RGB 教师和我们提出的 MTA 损失来训练音频学生网络。
       • 与 MM-DistillNet Avg 进行比较,后者使用简单的方法通过 平均 单个特定模态的网络激活来结合来自 RGB、深度和热教师的预测。
       •  展示了本文的 MTA 损失函数在 有效地从教学中 提取多模态知识 的效用。
       定量比较结果
       •  使用相同的输入(仅音频),我们可以观察到 不同教师的知识 如何 提高 以前最先进的 StereoSoundNet [19] 的性能
       •  这表明我们的 MTA 损失函数优于Ranking 损失
       •  音频是检测移动车辆的一种有价值的方式。
       •  带有 MTA 损失函数的 MM-DistillNet 利用了来自多模态教师的互补线索,并促进了有效的蒸馏。
       将来自多个教师的知识提炼给一个学生。
       •  图4通过可视化激活体现了 如何将多个教师的预测整合到学生中。
       •  夜间环境中的 热力thermal 老师是 能够在光线不足的情况下预测汽车的特权模式。
       消融实验
       •  RGB和热 是 性能提升的主要贡献者。这可以分别归因于模式在白天和晚上的表现。
       定性对比
       •  音频模态 能够 克服视觉传感器的某些限制。由于我们的模型从所有教师那里提取知识,MM-DistillNet 会主动检测 RGB 相机看不到的汽车,在这种情况下,来自热教师。
       •  本文的模型使用 RGB 和深度教师来强化场景中有两辆车的事实。我们将此功能归因于 从麦克风阵列中整合音频
       •  本文的模型还可以预测在任何模式下都不可见的汽车,例如进入场景的被遮挡的汽车。
       Conclusion
       本文提出了一种自监督的框架,将知识从 不同的昂贵传感器模态中 提炼成 更易于获得的模态。通过 利用模态的共现 以及在视觉域中存在用于目标检测的 预训练网络 这一事实来做到这一点。
       使用 自监督方案来 标记音频频谱图 以进行目标检测。
       在训练期间,我们使用 RGB、深度和热教师来改进学生网络的训练;这使我们能够 在推理期间只需要音频音频可以成为自动驾驶中使用的传统传感器模式的强大替代品,特别是在克服视觉限制方面。
       公开发布本文的大规模 MAVD 数据集。
       突出了本文的模型 克服视觉限制(如遮挡)的能力,从而促进了新的应用。
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值