【论文速看】DL最新进展20241002-自动驾驶、自监督学习、扩散模型、多模态与图像分割

【自动驾驶】

[轨迹预测] CASPFormer: Trajectory Prediction from BEV Images with Deformable Attention

论文链接:https://arxiv.org/pdf/2409.17790

代码链接:无

运动预测是自动驾驶(AD)和高级驾驶辅助系统(ADAS)的一个重要方面。当前最先进的运动预测方法依赖于高清(HD)地图来捕捉自车周围的上下文。这样的系统在现实世界的部署中缺乏可扩展性,因为高清地图的制作和实时更新成本高昂。为了克服这个问题,作者提出了上下文感知场景预测TransformerCASPFormer),它可以从光栅化的鸟瞰图(BEV)图像进行多模态运动预测。所设计的系统可以与任何能够生成BEV图像的上游感知模块集成。此外,CASPFormer 直接解码矢量化轨迹,无需任何后处理。轨迹通过使用可变形注意力递归解码,因为这在计算上是高效的,并且赋予网络能力,使其能够将注意力集中在BEV图像的重要空间位置上。另外,还通过引入可学习的模式查询来解决生成多个场景一致性轨迹的模式崩溃问题。在nuScenes数据集上评估了所提型,并展示了它在多个指标上达到了最先进的水平。


【自监督学习】

[TPAMI 2024 ] Facial Video-based Remote Physiological Measurement via Self-supervised Learning

论文链接:https://arxiv.org/pdf/2210.15401

代码链接:https://github.com/yuezijie/Video-based-Remote-Physiological-Measurement-via-Self-supervised-Learning

基于面部视频的远程生理测量旨在从人类面部视频中估算远程光电容积脉搏波图(rPPG)信号,然后从rPPG信号中测量多个生命体征(例如心率、呼吸频率)。最近的方法通过训练深度神经网络来实现这一目标,这通常需要大量面部视频和同步记录的光电容积脉搏波图(PPG)信号进行监督。然而,这些注释语料库的收集在实践中并不容易。本文引入了一种新颖的频率启发式自监督框架,该框架学习从面部视频中估算rPPG信号,而不需要真实的PPG信号。给定一个视频样本,首先将其增强为多个正/负样本,这些样本包含与原始样本相似/不同的信号频率。具体来说,正样本是使用空间增强生成的负样本是通过一个可学习的频率增强模块生成的,该模块对输入执行非线性信号频率变换,而不会过度改变其视觉外观。接下来,引入一个局部rPPG专家聚合模块来从增强样本中估算rPPG信号。它从不同面部区域编码互补的脉动信息,并将它们聚合成一个rPPG预测。最后,文中提出了一系列频率启发式损失,即频率对比损失、频率比率一致性损失和跨视频频率一致性损失,用于优化从多个增强视频样本和时间上相邻的视频样本中估算的rPPG信号。在四个标准基准上进行了基于rPPG的心率、心率变异性和呼吸频率估算。实验结果表明,所提方法大幅改进了现有技术水平。

在这里插入图片描述

在这里插入图片描述


[2024] Frequency-Guided Masking for Enhanced Vision Self-Supervised Learning

论文链接:https://arxiv.org/pdf/2409.10362

代码链接:

文中提出了一种新颖的基于频率的自监督学习(SSL)方法,显著提高了其预训练的有效性。在这个方向上的先前工作通过在输入图像中遮蔽预定义的频率并使用重建损失来预训练模型。虽然取得了有希望的结果,但这种实现存在两个基本限制,正如在论文中识别的那样。首先,使用预定义的频率忽视了图像频率响应的可变性。其次,使用经过频率过滤的图像进行预训练后,得到的模型在微调过程中需要相对更多的数据才能适应自然的图像。为了解决这些缺点,作者提出了傅立叶变换压缩与自我知识蒸馏(FOLK),整合了两个专门的想法。首先,受图像压缩的启发,根据图像频率响应自适应地选择遮蔽的频率,为预训练创建更合适的SSL任务。其次,采用了一个由知识蒸馏支持的双分支框架,使模型能够同时以过滤后的和原始图像作为输入,大大减轻了下游任务的负担。实验结果证明了FOLK在包括图像分类、少样本学习和语义分割在内的各种下游任务中达到了许多最先进SSL方法的竞争性能。

在这里插入图片描述


【扩散模型】

[CVPR 2024] Residual Denoising Diffusion Models

论文链接:https://arxiv.org/pdf/2308.13712

代码链接:https://github.com/nachifur/RDDM

文中提出了残差去噪扩散模型(RDDM),这是一种新颖的双重扩散过程,它将传统的单一去噪扩散过程分解为残差扩散和噪声扩散。这种双重扩散框架扩展了基于去噪的扩散模型,这些模型最初对于图像恢复来说是难以解释的,通过引入残差,将其发展成一个统一且可解释的模型,用于图像生成和恢复。具体来说,残差扩散表示从目标图像到退化输入图像的方向性扩散,并显式地指导图像恢复的反向生成过程,而噪声扩散则表示扩散过程中的随机扰动。残差优先考虑确定性,而噪声强调多样性,使RDDM能够有效地统一具有不同确定性或多样性要求的任务,例如图像生成和恢复。文中展示了采样过程与DDPM和DDIM的采样过程通过系数变换是一致的,并提出了一个部分路径独立的生成过程,以更好地理解反向过程。值得注意的是,RDDM使得一个通用的UNet,仅使用L1损失和批量大小为1进行训练,就能与最先进的图像恢复方法竞争。


【多模态与图像分割】

FusionSAM: Latent Space driven Segment Anything Model for Multimodal Fusion and Segmentation

论文链接:https://arxiv.org/pdf/2408.13980v1

代码链接:无

多模态图像融合与分割通过整合各种传感器的数据,提高了自动驾驶中的场景理解能力。然而,由于缺乏能够引导过程中微调和关注相关区域的全面融合特征,当前模型在高效分割这些场景中密集排列的元素方面存在困难。Segment Anything Model(SAM)作为一种变革性的分割方法应运而生。与缺乏微调控制的变换器相比,它通过灵活的提示编码器提供了更有效的提示。尽管如此,SAM在自然图像的多模态融合领域尚未被广泛研究。本文首次将SAM引入多模态图像分割,提出了一种结合潜在空间token生成(LSTG)融合掩码提示(FMP)模块的新型框架,以增强SAM的多模态融合和分割能力。具体而言,首先通过向量量化获取两种模态的潜在空间特征,并将它们嵌入到一个基于交叉注意力的跨域融合模块中,以建立模态之间的长距离依赖关系。然后,使用这些全面的融合特征作为提示,指导精确的像素级分割。在几个公共数据集上的大量实验表明,所提出的方法在多模态自动驾驶场景中显著优于SAM和SAM2,与最先进方法相比,至少实现了3.9%更高的分割mIoU。

在这里插入图片描述


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

IRevers

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值