【Diffusion】
[ICML 2024] Score identity Distillation: Exponentially Fast Distillation of Pretrained Diffusion Models for One-Step Generation
论文链接:https://arxiv.org/pdf/2404.04057
代码链接:https://github.com/mingyuanzhou/SiD
文中引入了分数身份蒸馏(SiD),这是一种创新的无数据方法,可以将预训练扩散模型的生成能力提炼到一个单步生成器中。SiD不仅在提炼过程中使Fréchet初始距离(FID)指数级快速减少,而且接近或甚至超过原始教师扩散模型的FID表现。通过将前向扩散过程重新表述为半隐式分布,利用三个与分数相关的身份来创建一个创新的损失机制。这种机制通过使用其自身合成的图像训练生成器,实现了快速的FID减少,消除了对真实数据或基于逆向扩散的生成需求,所有这一切都在显著缩短的生成时间内完成。在四个基准数据集上的评估表明,SiD算法在提炼过程中表现出高效的迭代效率,并在生成质量方面超越了竞争性的提炼方法,无论是单步还是少步、无数据依赖还是依赖于训练数据的方法。这一成就不仅重新定义了扩散提炼的效率和效果基准,也在更广泛的基于扩散的生成领域中树立了标杆。
【目标检测】
[2024] DA-Ada: Learning Domain-Aware Adapter for Domain Adaptive Object Detection
机构:中科院
论文链接:https://arxiv.org/pdf/2410.09004v1
代码链接:https://github.com/Therock90421/DA-Ada
域自适应目标检测(DAOD)旨在将训练有素的源域上的检测器泛化到未标记的目标域。由于视觉-语言模型(VLMs)可以为未见过的图像提供必要的通用知识,因此冻结视觉编码器并插入一个与域无关的适配器可以学习DAOD的域不变知识。然而,与域无关的适配器不可避免地偏向于源域。它丢弃了一些对未标记域具有区分性的有益知识,即目标域的特定领域知识
。为了解决这个问题,文中提出了一种专门为DAOD任务量身定制的新型域感知适配器(DA-Ada)。其关键点是利用基本通用知识和域不变知识之间的特定领域知识。DA-Ada由用于学习**域不变知识的域不变适配器(DIA)和用于注入视觉编码器丢弃的信息中的特定领域知识的域特定适配器(DSA)**组成。在多个DAOD任务上的综合实验表明,DA-Ada可以有效地推断出一个具有域感知能力的视觉编码器,以提升域自适应目标检测的性能。
【多模态】
[2024] E2E-MFD: Towards End-to-End Synchronous Multimodal Fusion Detection
论文链接:https://arxiv.org/pdf/2403.09323
代码链接:https://github.com/icey-zhang/E2E-MFD
多模态图像融合和目标检测对自动驾驶至关重要。虽然当前的方法在纹理细节和语义信息的融合方面取得了进展,但其复杂的训练过程阻碍了更广泛的应用。为了应对这一挑战,文中引入了E2E-MFD,这是一个用于多模态融合检测的新型端到端算法。E2E-MFD简化了流程,通过一个单独的训练阶段实现高性能。它采用跨组件的同步联合优化,以避免与单个任务相关的次优解。此外,它还在共享参数的梯度矩阵中实施全面的优化策略,确保收敛到最优的融合检测配置。在多个公共数据集上的广泛测试显示,E2E-MFD具有卓越的能力,不仅展示了视觉上令人愉悦的图像融合效果,还取得了令人印象深刻的检测成果,例如在水平物体检测数据集M3FD和定向物体检测数据集DroneVehicle上,分别比最先进的方法提高了3.9%和2.0%的mAP50。