大模型理解与生成三维点云:CVPR《GPT4Point: A Unified Framework for Point-Language Understanding and Generation》介绍

大模型理解与生成三维点云:CVPR2024论文《GPT4Point: A Unified Framework for Point-Language Understanding and Generation》

本文是关于CVPR2024最新论文《GPT4Point: A Unified Framework for Point-Language Understanding and Generation》的简要介绍。GPT4Point是让大模型理解与生成三维模型点云的经典作品,作者提出了 Pyramid-XL点云-语言标注引擎,以及数据规模超过1M的物体文本数据集,并且使用多种评价指标评测GPT4Point的点云理解和生成性能。

本文写于2024年4月15日。

有关本专栏的更多内容,请参考大语言模型文献调研专栏目录

1. 论文基本信息

1.1 资源

题目:GPT4Point: A Unified Framework for Point-Language Understanding and Generation

链接:https://arxiv.org/pdf/2312.02980.pdf

代码:https://github.com/Pointcept/GPT4Point

项目:https://gpt4point.github.io/

文章引用:

@inproceedings{GPT4Point,
  title={GPT4Point: A Unified Framework for Point-Language Understanding and Generation},
  author={Zhangyang Qi and Ye Fang and Zeyi Sun and Xiaoyang Wu and Tong Wu and Jiaqi Wang and Dahua Lin and Hengshuang Zhao},
  booktitle={CVPR},
  year={2024},
}

1.2 动机

最近大语言模型(LLMs)在自然语言处理领域取得显著进展,后续研究者积极探索将大语言模型与其他模态进行结合,例如图像、音频、视频等。此外,视觉-语言模型(VLMs)通过图像-文本对进行大规模预训练,实现了文本图像的编码对应。基于大模型的多模态的生成任务也日新月异。然而,当来到三维世界,上述方法难免力不从心。

最近的一些工作将2D特征看做3D特征,造成几何精度损失,一些研究注重整体场景理解,主要关注对象的空间坐标而忽略了细节理解,其他工作例如PointBind等缺乏整体全面训练,PointLLM需要对语言模型组件进行训练,但缺乏文本生成能力。为此,作者提出了GPT4Point,用于点云-语言理解和生成。其要点为:

  • GPT4Point是一种3D多模态大语言模型。GPT4Point引入了3D对象MLLM,完全利用点云执行各种点-文本任务。
  • 点云文本对齐。利用基于Bert的Point-QFormer进行点-文本特征对齐,对齐的特征分别输入LLMs进行文本推理任务和Diffusion进行3D对象生成任务。
  • 点云质量改善。输入低质量的点云特征作为条件,GPT4Point可以利用点云-文本对齐特征生成更高质量的结果,同时保持几何形状和颜色。

针对3D数据难以获取的问题,作者开发了一个数据注释引擎PyramidXL,其要点为:

  • 基于Objaverse-XL数据集
  • 解决了VLMs无法直接理解多视角图像的问题。
  • 通过综合由VLMs获取的多视图的标题,文本注释从低到高被分层为三个层次,得到精确的注释。

此外,作者还建立了一个物体点云-文本基准,用于评估点多模态模型在识别和文本推理任务中的能力,如3D物体点云描述和问答。这个基准还为评估3D物体生成提供了关键标准,当前的评估常常依赖于对渲染图像的定性判断,而没有直接在3D空间中进行评估,仅依赖于渲染图像可能会导致误解。

GPT4Point

2 相关工作

2.1 多模态大语言模型

大型语言模型(LLMs)展示了在语言理解、推理和泛化方面的强大能力,多模态大语言模型(MLLMs)在LLMs的基础上,将推理能力扩展到额外的模态,如图像、音频和视频。MLLMs将目标特征与文本特征对齐,并与LLMs整合,用于各种文本推理任务。可以从头开始训练整个架构,也可以利用预训练的LLMs。

在3D MLLMs领域,现有模型面临着诸如依赖2D图像信息或将低质量文本短语与点云对齐等挑战。为了解决这些问题,作者引入了一种新的3D MLLM,采用基于Bert的Point Q-Former,用于多样的点云文本任务,推进了3D多模态理解领域。

2.2 三维点云的理解

3D点云多模态模型通常可分为包含多个物体的整个场景(强调物体在场景中的相对位置)以及单个物体的模型(强调几何形状)。前者更加强调而不是它们的。

  • 通过自监督的方式,像PointBert这样强大的骨干网络已经被用于获取对象点云。
  • 点云语言预训练尝试将点云模态与文本模态对齐。
  • 一些方法试图将点云转换为深度图像,以便使用CLIP将其与文本对齐。
  • 三模态方法,如ULIP,整合了点云、文本和图像数据。

然而,这些方法都专门使用了2D图像,明确或隐含地。我们的工作通过直接对齐3D点文本模态,完全消除了对图像数据的依赖。

2.3 基于文本的点云生成

当前从文本到点云的方法通常依赖于优化神经辐射场(NeRF)表示与得分蒸馏采样(SDS)损失。这些基于优化的方法在鲁棒性、速度和泛化性方面仍然存在不足。

Point-E和 Shap-E采用了在大型未公开的3D数据集上训练的前馈3D生成模型,提供了更好的泛化性和更快的处理速度。然而,这些模型通常会产生随机、不可控制的输出,具有低质量的纹理。

为了解决这些限制,我们利用点云-文本特征来增强前馈模型的可控性。这种方法使用低质量的点-文本特征作为条件,使得能够保持特定的形状和颜色,从而实现更高质量的3D对象生成。

3. 方法

3.1 Pyramid-XL数据标注引擎

Objaverse数据集及其后续版本Objaverse-XL的公开发布提供了大量的3D对象数据,分别包含800K和10M个对象。然而,这些对象缺乏相应的文本描述。尽管对象的渲染图像可用,但直接将多视角图像输入VLM不能使其理解它们的3D结构并提供精确的描述。

为了解决这一挑战,Pyramid-XL采用了一种分层管道,从最初的低质量描述逐步发展,最终实现了对对象的精确和详细的文本描述。有三个层次:

  1. 单视角标题(一级):利用主要的VLM模型BLIP-2,从单视角渲染图像中生成约10个词长度的简明描述。
  2. 多视角标题(二级):这一级别通过GPT-4综合多个一级描述,创建综合的多视角标题,约30个词长度。
  3. VLM指令标题和QA对(三级):通过利用从文本描述中选择的具有最高CLIP分数的视角,启用高级VLM生成详细的密集标题以及相应的QA数据集。

有以下要点:

  1. 标注规模:Pyramid-XL用于对超过100万个对象进行一级标题的注释,66万个对象进行二级标题的注释(与Cap3D相同),以及7万个对象进行包括问答数据在内的密集标题注释。
  2. 训练方法:为了评估训练中文本粒度对结果的影响,作者将100万个一级标题作为预训练数据集,而较小的一组详细的三级数据用于指导微调。这种策略与视觉领域的实践一致,即模型首先在较粗的数据上进行预训练,然后在来自专业领域更具体和详细的数据上进行微调。
  3. 实验结果:这种方法的详细实验结果实验部分呈现,展示了该方法在训练和微调文本到3D生成模型方面的有效性。

Pyramid-XL结构

3.2 模型结构

GPT4Point包括两个阶段,在第一阶段,重点放在使用PointQFormer进行点云文本对齐,类似于BLIP-2中的Q-Former。该阶段通过与识别和文本推理相关的三项任务进行监督。在第二阶段,只有点云被输入到点云编码器和Point-QFormer中以获取对齐的特征,然后这些特征被分成两个分支:LLM分支和扩散分支,分别监督文本理解和对象生成任务。

第一阶段:点云文本对齐:给定一个点云,其中每个点由六个维度表示(XYZ坐标和RGB颜色值),进行特征提取。点云编码器 处理点云以获得点云特征标记。同时,输入文本通过点Q-Former的文本标记器进行标记,生成文本特征标记。这些标记作为Point Q-Former ( FQ ) 的输入,促进了点云和文本数据的融合。

训练目标包括点-文本对比(PTC)、点-文本匹配(PTM)和点标题生成(PTG)。PTC 和 PTM 是保证有效对齐的识别任务,而 PTG 则专注于生成与点云特征和文本数据相对应的标题。这些目标在训练期间同时进行优化。损失函数由三个任务的损失组成:PTC、PTM 和 PTG。这些任务之间的权重比例设置为1。在点编码器的最后一层中,一个全连接层保持了点云特征和文本描述之间的差异,确保有效的对齐和标题生成。

第二阶段:点云理解和生成:只有点云被输入到点编码器和Point Q-Former中以获取对齐特征,对于理解任务,一个大型语言模型(LLM)与Point Q-Former集成,生成语义上整合的点云特征。文本特征标记从LLM自己的标记器中获得。

通过Point Q-Former从低质量点云中获取的特征作为条件输入到文本到3D框架中进行3D对象生成。生成的精细3D对象形状和颜色与原始点云保持一致。值得注意的是,点Q-Former以及点云扩散都被冻结。对齐特征被投影到CLIP令牌嵌入空间,并使用CLIP标记器与原始文本嵌入连接。从原始点云中获取的信息丰富的输出有助于实现有效的文本到3D生成。

该框架借鉴了BLIP-Diffusion的技术,强调Clip文本令牌和Q-Former特征的有效连接。这种方法与BLIP-Diffusion不同,主要在于连接方法,并且可能源于2D和3D数据量的差异,需要进行彻底的检查。最终输出通过Point-E实现。

4. 标准与评测

4.1 测试集组成

利用Objaverse数据集,将其与LVIS类别对齐,来创建Objaverse-LVIS验证和测试集。

  • 排除复杂场景。在Objaverse-LVIS中,我们排除了具有复杂设置的场景,例如室内房屋或室外公园,更多地关注单个物体或多个物体组合的场景。
  • 1K个目标。构建验证和测试集,每个集包含1K个对象。与PointLLM[66]相比,PointLLM只使用200个未过滤的对象作为测试集,更大规模的1K个对象集更好地衡量了模型的泛化能力。
  • 用Pyramid-XL标注文本。对于文本描述,使用Pyramid-XL获得初始注释,然后进行多轮专家手动修订,确保描述的全面和准确。

4.2 3D目标识别

zero-shot点云分类。

  • 数据集:广泛使用的 ModelNet40 数据集:包含 2,468 个对象,涵盖 40 个类别,用作评估模型分类能力的基准。
  • 特征匹配:在多模态情境下,典型方法涉及使用文本 ‘a 3D model of [name]’ 作为输入,与点云模态特征匹配。
  • 度量指标:精度度量 ACC@1,表示前 1 名排名的精确度,最能反映模型准确匹配对象类别的能力。

3D点云-文本检索:

  • 步骤:在3D点文本检索中,首先根据点文本特征相似性选择128个候选项。随后利用匹配分数对这些候选项进行重新排名。
  • 文本:与分类任务不同,这里的文本可能是复杂的描述,而不仅仅是简单的类别名称。
  • 指标:所使用的评估指标类似于图像-文本检索中的指标。采用R1、R5和R10指标来衡量前1、5和10个结果的准确性,以正确地将点与文本进行匹配。

4.3 3D目标文本推理

对于3D点云描述:主要评估模型提供3D对象的整体摘要能力。使用Objaverse-XL-LVIS字幕测试集中的字幕进行评估,通常在30个词以内,准确描述对象的几何形状、颜色和状态。评估指标包括BLEU1、BLEU4、METEOR、ROGUE-L和CIDEr。

对于3D点云问答:除了点云字幕,3D点云问答通过多轮对话探索物体细节,例如进一步探索对象特定部分的颜色或形状,甚至推断其简单用途。评估涉及来自Objaverse-XL-LVIS短问答1K测试集的简洁直接问题和答案,侧重于回答准确性,并利用字幕评估模型性能。需要注意的是,为了公平比较,我们仅使用零-shot学习,即不对这种类型的短问答数据集进行微调。

 GPT4Point的例子

5. 实验

5.1 部署

实验时有以下部署

输入点云:8192个点

模型结构:

  • Backbone:ULIP-2任务上预训练的Point-BERT
  • LLMs:OPT和FlanT5

实验:

  • 学习率:1e-4
  • 权重衰减:0.05
  • batch size:32
  • 优化器:AdamW
  • epoch:10
  • GPU:8*A100

5.2 实验结果

3D物体识别

  • 作者方法在3D物体识别中表现出卓越性能,在零样本分类结果中比InstructBLIP高出12.42个百分点,比PointLLM高出2.57个百分点。
  • **生成式与直接识别对比:**PointLLM采用生成式方法通过提示生成文本结果,限制了其直接识别能力。
  • **3D点文本检索结果:**GPT4Point模型在3D点文本检索方面表现优异,超越了其他VLMs。

3D物体检索

3D物体推理

  • GPT4Point在3D物体点云字幕生成方面表现优于预训练的VLM和PointLLM。
  • Point Q-Former结构使得可以冻结LLM,极大地减少了训练参数。
  • GPT4Point实现了最佳的零样本准确性,比InstructBLIP高出11.7个百分点,比PointLLM高出4.2个百分点。

3DQA

3D模型生成

  • 给定低质量点云特征和文本描述,可以生成了更高质量的点云,增强了文本到3D的可控性。
  • 实验结果表明,使用点云和文本信息对齐特征显著改善了点云生成的指导性。
  • 相较于从原始3D模型渲染的单视角图像,作者的Point Q-Former特征提供了更丰富的几何形状和详细颜色信息,标志着朝着点云编辑更进一步。

3D生成

5.3 有效性

作者使用来自Pyramid-XL的70K Level 3 VLM指令标题,对Point-Ebase-40M文本向量模型进行了微调,用于3D对象生成。与Cap3D相比,点云的几何细节和色彩保真度有了显著提高,尤其是在篮子和万圣节服装等物体中。

模型预训练中的消融研究。作者对Pyramid-XL的消融研究调查了预训练数据规模和质量对模型性能的影响。前两行的比较表明,使用大量粗标注可以提高基准性能。此外,结合更高比例的详细Level 3注释可以提高QA分数,80%的结果接近最佳。

PointE

消融

有关本专栏的更多内容,请参考大语言模型文献调研专栏目录

者自知才疏学浅,难免疏漏与谬误,若有高见,请不吝赐教,笔者将不胜感激!

softargmax

2024年4月15日

  • 20
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
3D点云生成的扩散概率模型》是CVPR 2021会议上提出的一种方法,用于生成逼真的3D点云模型。该方法通过建模点云中点之间的关系,以及点与空间中的位置关系,来生成点云数据。 传统的点云生成方法通常只考虑点与点之间的局部关系,而忽略了点与全局空间之间的关系。然而,在实际场景中,点云的分布往往受到全局空间的影响,因此需要考虑点与全局空间之间的关系。 该方法基于已有的点云数据集,首先利用卷积神经网络对点云进行特征提取,以获取点与其周围点的局部关系。然后,引入一个扩散概率模型,用于建模点与全局空间之间的关系。 扩散概率模型是一种概率模型,用于衡量点在全局空间中的分布。它基于点云生成的任务,通过最大似然估计来学习模型参数。在生成阶段,通过采样扩散概率模型,可以生成逼真的3D点云。 实验结果表明,该方法在各种点云生成任务上具有很好的效果。与传统方法相比,它能够更准确地还原真实场景中的点云分布,生成更逼真的模型。 综上所述,《3D点云生成的扩散概率模型》是一种基于点与全局空间之间关系的方法,用于生成逼真的3D点云模型。它通过引入扩散概率模型,能够更精确地模拟点云分布,生成更逼真的结果。这一方法在点云生成任务中具有广泛的应用前景。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值