CV每日论文---2024.4.12_gooddrag-CSDN博客

本文链接：https://blog.csdn.net/u012854516/article/details/137650054

1、GoodDrag: Towards Good Practices for Drag Editing with Diffusion Models

中文标题：GoodDrag：朝着使用扩散模型进行良好的拖动编辑实践

简介：本文介绍了一种名为GoodDrag的新方法，旨在改善拖拽编辑的稳定性和图像质量。与现有方法不同，GoodDrag引入了AlDD框架，通过在扩散过程中交替进行拖拽和去噪操作，有效提高了结果的保真度。此外，文章还提出了一种信息保留的运动监督操作，以保持起始点的原始特征，从而实现精确操作并减少伪影。另外，通过引入新的数据集Drag100并利用大型多模型开发专用的质量评估指标Dragging Accuracy Index和Gemini Score，为拖拽编辑的基准测试做出了贡献。广泛的实验表明，所提出的GoodDrag在质量和数量上都优于现有技术。项目页面为https://gooddrag.github.io。

2、BRAVE: Broadening the visual encoding of vision-language models

中文标题：BRAVE：拓宽视觉-语言模型的视觉编码

简介：视觉-语言模型（VLM）通常由视觉编码器（例如CLIP）和一个语言模型（LM）组成，该模型解释编码特征以解决下游任务。尽管取得了显著进展，但VLM由于视觉编码器的能力有限，例如对某些图像特征的“盲点”、视觉幻觉等，存在几个缺点。为了解决这些问题，我们研究了扩展VLM视觉编码能力的方法。首先，我们全面评估了几种具有不同归纳偏差的视觉编码器，用于解决VLM任务。我们观察到，没有单一的编码配置能够在不同任务中始终实现最佳性能，并且具有不同偏差的编码器可以表现出惊人的相似性。受此启发，我们引入了一种名为BRAVE的方法，将多个冻结编码器的特征合并成更多样化的表示，可直接作为冻结LM的输入。BRAVE在广泛的字幕和VQA基准测试中实现了最先进的性能，并显著减少了VLM的上述问题，同时需要比现有方法更少的可训练参数并具有更压缩的表示。我们的结果突显了将不同的视觉偏差纳入VLM中以实现更广泛和上下文化的视觉理解的潜力。

3、RealmDreamer: Text-Driven 3D Scene Generation with Inpainting and Depth Diffusion

中文标题：RealmDreamer: 文本驱动的三维场景生成，包括修补和深度扩散

简介：我们引入了一项名为RealmDreamer的新技术，能够根据文本描述生成通用的前向3D场景。这项技术通过优化3D高斯喷射表示来匹配复杂的文本提示。我们首先利用最先进的文本到图像生成器初始化这些喷射，并将它们提升到3D，以计算遮挡体积。接着，我们跨多个视图对这一表示进行优化，形成一个带有图像条件扩散模型的3D修复任务。为了确保几何结构的准确性，我们将深度扩散模型与修复模型的样本进行条件控制相结合，提供了丰富的几何结构。最后，我们通过对图像生成器的样本进行微调来进一步完善结果。值得一提的是，我们的技术无需视频或多视角数据，能够合成多种不同风格的高质量3D场景，包括多个对象。其通用性还使得从单个图像中合成3D成为可能。