NeurIPS 2024 | 打造一致性3D内容:多模态幻觉检测与消除新方法

为什么一致性3D内容生成如此重要?

在3D内容生成领域,确保多视角一致性至关重要。多视角一致性指在从不同视角观察同一场景时,场景的外观在各视角间保持一致。这意味着同一场景中的相同部分在不同视角下应具有相似的外观,包括几何形状、纹理和光照效果。如果从不同视角拍摄的图像表现出一致的特征,生成模型可以更准确地推断该场景的三维结构和表面属性。

图1. Janus问题所导致的3D内容“多头”现象

传统的3D生成方法常面临_“Janus问题”_(如图1所示),即在不同视角下生成的内容不一致,导致模型在多视角下表现出不连贯性。这种不一致会影响3D模型的真实性和用户体验,特别是在需要从多个角度查看对象的应用中,如虚拟现实、游戏设计和动画制作。因此,确保3D内容在所有视角下保持一致性,对于提高生成模型的可靠性和实用性至关重要。

为什么一致性3D内容生成如此重要?

图2. Hallo3D一致性3D内容生成的模型框架

当前的3D内容生成方法在多视角一致性和生成质量上面临显著挑战。针对这些问题,我们提出了一种全新的无调参方法——Hallo3D,通过以下三方面的贡献显著提升了3D内容生成的多视角一致性:

  1. 提出无调参的生成框架: 我们设计了一种无需依赖3D数据调参的创新性方法,能够显著提高生成内容的多视角一致性。实验结果表明,该方法在多个生成范式中均表现出优越的多视角一致性,验证了其通用性和有效性。

  2. 多模态模型在生成过程 **中的新应用:**我们进一步证明,大型多模态模型能够通过解析2D渲染图像,推断出高质量的几何结构,并对生成结果中的视觉幻觉进行检测和修正。这一发现拓宽了多模态模型在3D生成领域的应用范围,为一致性生成提供了新的技术基础。

  3. 优化生成策略以增强一致性: 我们引入了一种优化策略,通过设计强化的提示(enhanced prompts),实现了跨视角的结构和表面属性对齐,有效地解决了生成过程中的伪影和幻觉问题,从而提升了生成内容的全局一致性和视觉质量。

Hallo3D 的提出为解决多视角一致性问题提供了一种有效的解决方案,同时展示了其在多个生成任务中的广泛适用性,为进一步的3D生成研究奠定了基础。

针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈

多视角外观对齐:突破单视角生成的局限

在3D内容生成中,如何保证多视角的一致性是一个重要挑战。传统的Score Distillation Sampling (SDS) 方法通常仅处理单一视角的图像,这种训练策略导致各视角图像之间缺乏交互,最终使生成的3D内容在外观一致性上出现问题。

为了解决这一局限,我们提出了一种全新的“多视角外观对齐”策略。通过引入一致性的去噪方法,并结合注意力机制,我们实现了对多个随机视角图像的联合渲染,从而扩大了模型的生成视角范围。

图3. Hallo3D所生成的3D内容

具体来说,我们利用注意力机制将关键视角的纹理特征作为参考,为所有视角计算查询特征。这一过程在U-Net网络中完成,通过跨视角的特征对齐,实现了多视角生成的一致性,为3D生成任务提供了更高的可靠性和表现力。

将多模态大模型引入3D内容生成

在我们的工作中,我们展示出了将多模态大模型运用于3D内容生成领域中的可能。如图2所示,我们观察到未受显示几何约束的多模态大模型具有推理空间结构的能力。

图4. 对于多模态大模型的case study,用于评估大模型在3D生成任务中的表现

如图2所示,第一轮对话展示了模型从3D渲染图像中推断结构一致性的能力,而第二轮对话则表明模型能够以特定格式回应,使我们能够通过正则表达式提取负面提示词。多模态大模型在本工作中的作用具体有如下三点:

  1. 几何推理: 多模态大模型通过解析2D渲染图像中的几何信息,能够推断出3D内容的空间结构和比例关系。即便不直接依赖3D几何数据,这些模型仍可以利用跨模态推理能力,将视觉信息转化为对生成内容的几何理解,从而为多视角一致性提供结构性支持。

  2. 幻觉检测与修正: 生成的3D内容往往在不同视角下表现出伪影或幻觉。多模态大模型可以通过学习一致性查询信息,识别这些跨视角的不一致现象。基于检测结果,Hallo3D利用强化提示来引导生成过程,有针对性地消除这些伪影,使生成内容更具连贯性和真实性。

  3. 跨视角一致性优化: 通过在扩散去噪阶段引入多模态模型的注意力机制,Hallo3D能够控制生成内容在不同视角下的纹理和颜色表现,使其在视觉上更为一致,从而实现高效且通用的优化。

Prompt增强的一致性重构

在3D内容生成中,如何在保证语义完整性的同时提升渲染图像的几何一致性是一个关键问题。为解决现有方法在几何结构调整上的局限性,我们提出了“Prompt增强的一致性重构”模块。该模块利用增强的负向Prompt 通过改进的去噪扩散过程,有效提升渲染图像的多视角一致性。

具体而言,我们首先使用Denoising Diffusion Implicit Models (DDIM) 对原始渲染图像进行逆扩散操作,将其还原到噪声表示。随后,通过DDIM采样并结合增强的负向Prompt和注意力机制,生成与原图语义一致且具备更高一致性的重构图像。同时,通过加入均方误差损失,我们在训练过程中优化了原始图像和重构图像之间的一致性,使模型能够更精准地聚焦于语义完整的高质量图像。

最终,通过结合Prompt增强的重构策略和语义检测机制,我们实现了3D生成内容在多视角下的显著一致性提升,并在保持语义完整性的同时优化了训练效率。此方法为3D内容生成中的一致性问题提供了一种高效、鲁棒的解决方案。

实验结果

在实验部分,我们通过一系列定量与定性验证了方法的有效性与广泛适用性。

  • 定量实验结果

首先,为解决3D生成领域缺乏统一评估指标的问题,我们采用CLIP-Score来衡量生成内容的多视角一致性。实验中,使用ChatGPT生成了80个独特的3D生成提示,并在z轴上均匀布置16个摄像机以捕获360度视角。我们计算了所有视角的平均CLIP-Score,并通过结果发现,我们的方法在一致性上显著优于所有基线模型。

表1. 与其他文生3D方法的CLIP-Score评分对比

其次,我们基于几何精度和视觉质量对方法进行了深入评估。具体而言,在几何精度方面,我们采用了Chamfer Distance(CD)和体积交并比(Vol. IoU)作为评价指标;在视觉质量方面,则使用了PSNR、SSIM和LPIPS指标。实验中,我们从GSO和Objaverse数据集中选取了60个复杂程度适中的对象,按照前视角进行256x256分辨率的渲染。结果表明,无论是几何准确性还是纹理质量,我们的方法均在所有指标上优于基线模型,进一步验证了其在文本到3D和图像到3D任务中的广泛适用性。

表2. 与其他图生3D方法的相关指标评分对比

最后,在用户研究中,我们邀请了58位人工智能领域的专业志愿者参与实验,针对多视角一致性、整体质量以及生成结果与提示的匹配度三个维度对3D模型进行评分(评分范围为1至10)。我们为每个3D模型生成了120帧视频,共计32组对比视频。通过汇总平均分,我们的研究结果显示,在所有维度上,所提出方法的得分均高于基线模型,充分体现了其在生成质量和一致性上的优势。

表3. 与其他文生3D方法的用户评分对比

表4. 与其他图生3D方法的用户评分对比

  • 定性实验结果

    与定量实验结果相同,我们分别在文生3D和图生3D两个模式中开展了实验。

    图5. 文生3D的定性实验结果

图6. 图生3D的定性实验结果

在定性结果的展示中,我们通过可视化生成的3D内容,从多视角一致性、纹理细节和几何结构等方面对方法的表现进行了深入分析。相比于基线模型,我们的方法在多视角生成的一致性上有显著提升,能够有效避免“Janus问题”等常见伪影。此外,在纹理表现方面,生成结果展现出更高的细腻程度,细节纹理在不同视角间保持连贯,充分体现了方法对跨视角特征的良好捕捉能力。在几何结构上,我们的方法成功生成了更加稳定和准确的三维形态,避免了基线方法中常见的几何畸变和信息丢失。这些可视化结果不仅直观地验证了方法的有效性,也进一步凸显了其在提升3D生成质量和一致性方面的优势。

总结与展望

Hallo3D 的提出为 3D 内容生成领域提供了一种高效且通用的解决方案,弥补了现有方法在多视角一致性和几何结构优化上的不足。这一方法的创新性在于结合多模态大模型和优化策略,显著提升了生成质量,为未来的研究与应用提供了重要参考。基于 Hallo3D,我们认为未来的研究可以朝以下几个方向展开:

  1. 探索更高效的跨视角对齐方法: 当前方法已在多视角一致性上取得了显著进展,但在处理复杂几何形态时仍有优化空间。未来研究可以结合自监督学习或强化学习,探索更加精准和高效的对齐策略。

  2. 扩展到更多生成场景: 虽然 Hallo3D 在文本到 3D 和图像到 3D 的任务中表现出色,但其方法仍有潜力应用于更加多样化的场景,如视频到 3D 的动态内容生成或增强现实中的实时生成。

  3. 提升计算效率和模型扩展性: 随着生成任务复杂性的增加,如何在保证一致性的同时减少计算成本,将是一个重要的研究方向。此外,提升模型对不同硬件和平台的适配性,进一步扩大其实际应用范围,也是未来的重点。

我们期待未来基于 Hallo3D 的研究能够进一步突破技术瓶颈,为 3D 内容生成带来更多创新性成果,加速多模态人工智能技术在各行业的落地与普及。

读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
在这里插入图片描述

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述
在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值