1、GoodDrag: Towards Good Practices for Drag Editing with Diffusion Models
中文标题:GoodDrag:朝着使用扩散模型进行良好的拖动编辑实践
简介:本文介绍了一种名为GoodDrag的新方法,旨在改善拖拽编辑的稳定性和图像质量。与现有方法不同,GoodDrag引入了AlDD框架,通过在扩散过程中交替进行拖拽和去噪操作,有效提高了结果的保真度。此外,文章还提出了一种信息保留的运动监督操作,以保持起始点的原始特征,从而实现精确操作并减少伪影。另外,通过引入新的数据集Drag100并利用大型多模型开发专用的质量评估指标Dragging Accuracy Index和Gemini Score,为拖拽编辑的基准测试做出了贡献。广泛的实验表明,所提出的GoodDrag在质量和数量上都优于现有技术。项目页面为https://gooddrag.github.io。
2、BRAVE: Broadening the visual encoding of vision-language models
中文标题:BRAVE:拓宽视觉-语言模型的视觉编码
简介:视觉-语言模型(VLM)通常由视觉编码器(例如CLIP)和一个语言模型(LM)组成,该模型解释编码特征以解决下游任务。尽管取得了显著进展,但VLM由于视觉编码器的能力有限,例如对某些图像特征的“盲点”、视觉幻觉等,存在几个缺点。为了解决这些问题,我们研究了扩展VLM视觉编码能力的方法。首先,我们全面评估了几种具有不同归纳偏差的视觉编码器,用于解决VLM任务。我们观察到,没有单一的编码配置能够在不同任务中始终实现最佳性能,并且具有不同偏差的编码器可以表现出惊人的相似性。受此启发,我们引入了一种名为BRAVE的方法,将多个冻结编码器的特征合并成更多样化的表示,可直接作为冻结LM的输入。BRAVE在广泛的字幕和VQA基准测试中实现了最先进的性能,并显著减少了VLM的上述问题,同时需要比现有方法更少的可训练参数并具有更压缩的表示。我们的结果突显了将不同的视觉偏差纳入VLM中以实现更广泛和上下文化的视觉理解的潜力。
3、RealmDreamer: Text-Driven 3D Scene Generation with Inpainting and Depth Diffusion
中文标题:RealmDreamer: 文本驱动的三维场景生成,包括修补和深度扩散
简介:我们引入了一项名为RealmDreamer的新技术,能够根据文本描述生成通用的前向3D场景。这项技术通过优化3D高斯喷射表示来匹配复杂的文本提示。我们首先利用最先进的文本到图像生成器初始化这些喷射,并将它们提升到3D,以计算遮挡体积。接着,我们跨多个视图对这一表示进行优化,形成一个带有图像条件扩散模型的3D修复任务。为了确保几何结构的准确性,我们将深度扩散模型与修复模型的样本进行条件控制相结合,提供了丰富的几何结构。最后,我们通过对图像生成器的样本进行微调来进一步完善结果。值得一提的是,我们的技术无需视频或多视角数据,能够合成多种不同风格的高质量3D场景,包括多个对象。其通用性还使得从单个图像中合成3D成为可能。