大模型理解与生成三维点云:CVPR2024论文《GPT4Point: A Unified Framework for Point-Language Understanding and Generation》
本文是关于CVPR2024最新论文《GPT4Point: A Unified Framework for Point-Language Understanding and Generation》的简要介绍。GPT4Point是让大模型理解与生成三维模型点云的经典作品,作者提出了 Pyramid-XL点云-语言标注引擎,以及数据规模超过1M的物体文本数据集,并且使用多种评价指标评测GPT4Point的点云理解和生成性能。
本文写于2024年4月15日。
文章目录
有关本专栏的更多内容,请参考大语言模型文献调研专栏目录
1. 论文基本信息
1.1 资源
题目:GPT4Point: A Unified Framework for Point-Language Understanding and Generation
链接:https://arxiv.org/pdf/2312.02980.pdf
代码:https://github.com/Pointcept/GPT4Point
项目:https://gpt4point.github.io/
文章引用:
@inproceedings{GPT4Point,
title={GPT4Point: A Unified Framework for Point-Language Understanding and Generation},
author={Zhangyang Qi and Ye Fang and Zeyi Sun and Xiaoyang Wu and Tong Wu and Jiaqi Wang and Dahua Lin and Hengshuang Zhao},
booktitle={CVPR},
year={2024},
}
1.2 动机
最近大语言模型(LLMs)在自然语言处理领域取得显著进展,后续研究者积极探索将大语言模型与其他模态进行结合,例如图像、音频、视频等。此外,视觉-语言模型(VLMs)通过图像-文本对进行大规模预训练,实现了文本图像的编码对应。基于大模型的多模态的生成任务也日新月异。然而,当来到三维世界,上述方法难免力不从心。
最近的一些工作将2D特征看做3D特征,造成几何精度损失,一些研究注重整体场景理解,主要关注对象的空间坐标而忽略了细节理解,其他工作例如PointBind等缺乏整体全面训练,PointLLM需要对语言模型组件进行训练,但缺乏文本生成能力。为此,作者提出了GPT4Point,用于点云-语言理解和生成。其要点为:
- GPT4Point是一种3D多模态大语言模型。GPT4Point引入了3D对象MLLM,完全利用点云执行各种点-文本任务。
- 点云文本对齐。利用基于Bert的Point-QFormer进行点-文本特征对齐,对齐的特征分别输入LLMs进行文本推理任务和Diffusion进行3D对象生成任务。
- 点云质量改善。输入低质量的点云特征作为条件,GPT4Point可以利用点云-文本对齐特征生成更高质量的结果,同时保持几何形状和颜色。
针对3D数据难以获取的问题,作者开发了一个数据注释引擎PyramidXL,其要点为:
- 基于Objaverse-XL数据集
- 解决了VLMs无法直接理解多视角图像的问题。
- 通过综合由VLMs获取的多视图的标题,文本注释从低到高被分层为三个层次,得到精确的注释。
此外,作者还建立了一个物体点云-文本基准,用于评估点多模态模型在识别和文本推理任务中的能力,如3D物体点云描述和问答。这个基准还为评估3D物体生成提供了关键标准,当前的评估常常依赖于对渲染图像的定性判断,而没有直接在3D空间中进行评估,仅依赖于渲染图像可能会导致误解。
2 相关工作
2.1 多模态大语言模型
大型语言模型(LLMs)展示了在语言理解、推理和泛化方面的强大能力,多模态大语言模型(MLLMs)在LLMs的基础上,将推理能力扩展到额外的模态,如图像、音频和视频。MLLMs将目标特征与文本特征对齐,并与LLMs整合,用于各种文本推理任务。可以从头开始训练整个架构,也可以利用预训练的LLMs。
在3D MLLMs领域,现有模型面临着诸如依赖2D图像信息或将低质量文本短语与点云对齐等挑战。为了解决这些问题,作者引入了一种新的3D MLLM,采用基于Bert的Point Q-Former,用于多样的点云文本任务,推进了3D多模态理解领域。
2.2 三维点云的理解
3D点云多模态模型通常可分为包含多个物体的整个场景(强调物体在场景中的相对位置)以及单个物体的模型(强调几何形状)。前者更加强调而不是它们的。
- 通过自监督的方式,像PointBert这样强大的骨干网络已经被用于获取对象点云。
- 点云语言预训练尝试将点云模态与文本模态对齐。
- 一些方法试图将点云转换为深度图像,以便使用CLIP将其与文本对齐。
- 三模态方法,如ULIP,整合了点云、文本和图像数据。
然而,这些方法都专门使用了2D图像,明确或隐含地。我们的工作通过直接对齐3D点文本模态,完全消除了对图像数据的依赖。
2.3 基于文本的点云生成
当前从文本到点云的方法通常依赖于优化神经辐射场(NeRF)表示与得分蒸馏采样(SDS)损失。这些基于优化的方法在鲁棒性、速度和泛化性方面仍然存在不足。
Point-E和 Shap-E采用了在大型未公开的3D数据集上训练的前馈3D生成模型,提供了更好的泛化性和更快的处理速度。然而,这些模型通常会产生随机、不可控制的输出,具有低质量的纹理。
为了解决这些限制,我们利用点云-文本特征来增强前馈模型的可控性。这种方法使用低质量的点-文本特征作为条件,使得能够保持特定的形状和颜色,从而实现更高质量的3D对象生成。
3. 方法
3.1 Pyramid-XL数据标注引擎
Objaverse数据集及其后续版本Objaverse-XL的公开发布提供了大量的3D对象数据,分别包含800K和10M个对象。然而,这些对象缺乏相应的文本描述。尽管对象的渲染图像可用,但直接将多视角图像输入VLM不能使其理解它们的3D结构并提供精确的描述。
为了解决这一挑战,Pyramid-XL采用了一种分层管道,从最初的低质量描述逐步发展,最终实现了对对象的精确和详细的文本描述。有三个层次:
- 单视角标题(一级):利用主要的VLM模型BLIP-2,从单视角渲染图像中生成约10个词长度的简明描述。
- 多视角标题(二级):这一级别通过GPT-4综合多个一级描述,创建综合的多视角标题,约30个词长度。
- VLM指令标题和QA对(三级):通过利用从文本描述中选择的具有最高CLIP分数的视角,启用高级VLM生成详细的密集标题以及相应的QA数据集。
有以下要点:
- 标注规模:Pyramid-XL用于对超过100万个对象进行一级标题的注释,66万个对象进行二级标题的注释(与Cap3D相同),以及7万个对象进行包括问答数据在内的密集标题注释。
- 训练方法:为了评估训练中文本粒度对结果的影响,作者将100万个一级标题作为预训练数据集,而较小的一组详细的三级数据用于指导微调。这种策略与视觉领域的实践一致,即模型首先在较粗的数据上进行预训练,然后在来自专业领域更具体和详细的数据上进行微调。
- 实验结果:这种方法的详细实验结果实验部分呈现,展示了该方法在训练和微调文本到3D生成模型方面的有效性。
3.2 模型结构
GPT4Point包括两个阶段,在第一阶段,重点放在使用PointQFormer进行点云文本对齐,类似于BLIP-2中的Q-Former。该阶段通过与识别和文本推理相关的三项任务进行监督。在第二阶段,只有点云被输入到点云编码器和Point-QFormer中以获取对齐的特征,然后这些特征被分成两个分支:LLM分支和扩散分支,分别监督文本理解和对象生成任务。
第一阶段:点云文本对齐:给定一个点云,其中每个点由六个维度表示(XYZ坐标和RGB颜色值),进行特征提取。点云编码器 处理点云以获得点云特征标记。同时,输入文本通过点Q-Former的文本标记器进行标记,生成文本特征标记。这些标记作为Point Q-Former ( FQ ) 的输入,促进了点云和文本数据的融合。
训练目标包括点-文本对比(PTC)、点-文本匹配(PTM)和点标题生成(PTG)。PTC 和 PTM 是保证有效对齐的识别任务,而 PTG 则专注于生成与点云特征和文本数据相对应的标题。这些目标在训练期间同时进行优化。损失函数由三个任务的损失组成:PTC、PTM 和 PTG。这些任务之间的权重比例设置为1。在点编码器的最后一层中,一个全连接层保持了点云特征和文本描述之间的差异,确保有效的对齐和标题生成。
第二阶段:点云理解和生成:只有点云被输入到点编码器和Point Q-Former中以获取对齐特征,对于理解任务,一个大型语言模型(LLM)与Point Q-Former集成,生成语义上整合的点云特征。文本特征标记从LLM自己的标记器中获得。
通过Point Q-Former从低质量点云中获取的特征作为条件输入到文本到3D框架中进行3D对象生成。生成的精细3D对象形状和颜色与原始点云保持一致。值得注意的是,点Q-Former以及点云扩散都被冻结。对齐特征被投影到CLIP令牌嵌入空间,并使用CLIP标记器与原始文本嵌入连接。从原始点云中获取的信息丰富的输出有助于实现有效的文本到3D生成。
该框架借鉴了BLIP-Diffusion的技术,强调Clip文本令牌和Q-Former特征的有效连接。这种方法与BLIP-Diffusion不同,主要在于连接方法,并且可能源于2D和3D数据量的差异,需要进行彻底的检查。最终输出通过Point-E实现。
4. 标准与评测
4.1 测试集组成
利用Objaverse数据集,将其与LVIS类别对齐,来创建Objaverse-LVIS验证和测试集。
- 排除复杂场景。在Objaverse-LVIS中,我们排除了具有复杂设置的场景,例如室内房屋或室外公园,更多地关注单个物体或多个物体组合的场景。
- 1K个目标。构建验证和测试集,每个集包含1K个对象。与PointLLM[66]相比,PointLLM只使用200个未过滤的对象作为测试集,更大规模的1K个对象集更好地衡量了模型的泛化能力。
- 用Pyramid-XL标注文本。对于文本描述,使用Pyramid-XL获得初始注释,然后进行多轮专家手动修订,确保描述的全面和准确。
4.2 3D目标识别
zero-shot点云分类。
- 数据集:广泛使用的 ModelNet40 数据集:包含 2,468 个对象,涵盖 40 个类别,用作评估模型分类能力的基准。
- 特征匹配:在多模态情境下,典型方法涉及使用文本 ‘a 3D model of [name]’ 作为输入,与点云模态特征匹配。
- 度量指标:精度度量 ACC@1,表示前 1 名排名的精确度,最能反映模型准确匹配对象类别的能力。
3D点云-文本检索:
- 步骤:在3D点文本检索中,首先根据点文本特征相似性选择128个候选项。随后利用匹配分数对这些候选项进行重新排名。
- 文本:与分类任务不同,这里的文本可能是复杂的描述,而不仅仅是简单的类别名称。
- 指标:所使用的评估指标类似于图像-文本检索中的指标。采用R1、R5和R10指标来衡量前1、5和10个结果的准确性,以正确地将点与文本进行匹配。
4.3 3D目标文本推理
对于3D点云描述:主要评估模型提供3D对象的整体摘要能力。使用Objaverse-XL-LVIS字幕测试集中的字幕进行评估,通常在30个词以内,准确描述对象的几何形状、颜色和状态。评估指标包括BLEU1、BLEU4、METEOR、ROGUE-L和CIDEr。
对于3D点云问答:除了点云字幕,3D点云问答通过多轮对话探索物体细节,例如进一步探索对象特定部分的颜色或形状,甚至推断其简单用途。评估涉及来自Objaverse-XL-LVIS短问答1K测试集的简洁直接问题和答案,侧重于回答准确性,并利用字幕评估模型性能。需要注意的是,为了公平比较,我们仅使用零-shot学习,即不对这种类型的短问答数据集进行微调。
5. 实验
5.1 部署
实验时有以下部署
输入点云:8192个点
模型结构:
- Backbone:ULIP-2任务上预训练的Point-BERT
- LLMs:OPT和FlanT5
实验:
- 学习率:1e-4
- 权重衰减:0.05
- batch size:32
- 优化器:AdamW
- epoch:10
- GPU:8*A100
5.2 实验结果
3D物体识别
- 作者方法在3D物体识别中表现出卓越性能,在零样本分类结果中比InstructBLIP高出12.42个百分点,比PointLLM高出2.57个百分点。
- **生成式与直接识别对比:**PointLLM采用生成式方法通过提示生成文本结果,限制了其直接识别能力。
- **3D点文本检索结果:**GPT4Point模型在3D点文本检索方面表现优异,超越了其他VLMs。
3D物体推理
- GPT4Point在3D物体点云字幕生成方面表现优于预训练的VLM和PointLLM。
- Point Q-Former结构使得可以冻结LLM,极大地减少了训练参数。
- GPT4Point实现了最佳的零样本准确性,比InstructBLIP高出11.7个百分点,比PointLLM高出4.2个百分点。
3D模型生成:
- 给定低质量点云特征和文本描述,可以生成了更高质量的点云,增强了文本到3D的可控性。
- 实验结果表明,使用点云和文本信息对齐特征显著改善了点云生成的指导性。
- 相较于从原始3D模型渲染的单视角图像,作者的Point Q-Former特征提供了更丰富的几何形状和详细颜色信息,标志着朝着点云编辑更进一步。
5.3 有效性
作者使用来自Pyramid-XL的70K Level 3 VLM指令标题,对Point-Ebase-40M文本向量模型进行了微调,用于3D对象生成。与Cap3D相比,点云的几何细节和色彩保真度有了显著提高,尤其是在篮子和万圣节服装等物体中。
模型预训练中的消融研究。作者对Pyramid-XL的消融研究调查了预训练数据规模和质量对模型性能的影响。前两行的比较表明,使用大量粗标注可以提高基准性能。此外,结合更高比例的详细Level 3注释可以提高QA分数,80%的结果接近最佳。
有关本专栏的更多内容,请参考大语言模型文献调研专栏目录
者自知才疏学浅,难免疏漏与谬误,若有高见,请不吝赐教,笔者将不胜感激!
softargmax
2024年4月15日