【论文速看】DL最新进展20241029-Diffusion、多模态

【Diffusion】

[NeurIPS 2024] GrounDiT: Grounding Diffusion Transformers via Noisy Patch Transplantation

论文链接:https://arxiv.org/pdf/2410.20474

代码链接:https://groundit-visualai.github.io/

文中引入了一种新颖的免训练空间定位技术,用于文本到图像的生成,采用了扩散变换器(Diffusion Transformers,简称DiT)。通过边界框进行空间定位因其简单性和多功能性而受到关注,它允许在图像生成中增强用户控制。然而,之前的免训练方法通常依赖于在反向扩散过程中通过自定义损失函数的反向传播来更新噪声图像,这往往难以对单个边界框提供精确的控制。这项工作利用了Transformers架构的灵活性,证明了DiT可以生成与每个边界框相对应的噪声斑块,完全编码目标对象,并允许对每个区域进行细粒度控制。所提方法基于DiT的一个有趣特性,称之为语义共享。由于语义共享,当一个较小的斑块与可生成大小的图像共同去噪时,两者成为“语义克隆”。每个斑块在自己的生成过程分支中去噪,然后在每个时间步长移植到原始噪声图像的相应区域,从而实现了对每个边界框的稳健空间定位。在针对HRS和DrawBench基准测试的实验中,所提方法实现了与之前免训练空间定位方法相比的最先进的性能。

在这里插入图片描述

在这里插入图片描述


【多模态】

[2024] Face-MLLM: A Large Face Perception Model

机构:中科院

论文链接:https://arxiv.org/pdf/2410.20717

代码链接:无

尽管多模态大型语言模型(MLLMs)在广泛的视觉语言任务上取得了有希望的成果,但它们在感知和理解人脸方面的能力却很少被探索。这项工作全面评估了现有的MLLMs在面部感知任务上的表现。定量结果显示,现有的MLLMs难以处理这些任务。主要原因是缺乏包含人类脸部细粒度描述的图像-文本数据集。为了解决这个问题,作者设计了一个实用的数据构建流程,并在此基础上进一步构建了一个新的多模态大型面部感知模型,即Face-MLLM。具体来说,我们对LAION面部数据集进行了重新注释,增加了更详细的面部描述和面部属性标签。此外,使用适合MLLMs的问题-答案风格重新制定了传统的面部数据集。结合这些丰富的数据集,开发了一种新的三阶段MLLM训练方法。在前两个阶段,所提模型分别学习视觉-文本对齐基本的视觉问题回答能力。在第三阶段,模型学会了处理多个专门的面部感知任务。实验结果显示,该模型在五个著名的面部感知任务上超越了之前的MLLMs。此外,在我们新引入的零样本面部属性分析任务上,Face-MLLM也表现出了优越的性能。

在这里插入图片描述

在这里插入图片描述


[NIPS2024 2024] VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks

论文链接:https://arxiv.org/pdf/2406.08394

代码链接:https://github.com/OpenGVLab/VisionLLM

文中推出了VisionLLM v2,这是一个端到端的通用多模态大型模型(MLLM),它将视觉感知、理解和生成整合在一个框架内。与传统的仅限于文本输出的MLLMs不同,VisionLLM v2显著拓宽了其应用范围。它不仅在传统的视觉问答(VQA)任务上表现出色,而且在开放式、跨领域的视觉任务如目标定位、姿态估计以及图像生成和编辑上也表现优异。为此,作者提出了一种称为**“超级链接”的新信息传输机制**,作为连接MLLM与特定任务解码器的媒介。它不仅允许在MLLM和多个下游解码器之间灵活传输任务信息和梯度反馈,而且有效解决了多任务场景中的训练冲突。此外,为了支持多样化的任务,作者精心收集并整理了来自数百个公共视觉和视觉语言任务的训练数据。通过这种方式,该模型可以在数百个视觉语言任务上进行端到端的联合训练,并通过不同的用户提示使用一套共享参数泛化到这些任务,达到了与特定任务模型相媲美的性能。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

IRevers

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值