论文标题
LLaNA: Large Language and NeRF Assistant LLaNA:大型语言和神经辐射场助手
论文链接
LLaNA: Large Language and NeRF Assistant论文下载
论文作者
Andrea Amaduzzi, Pierluigi Zama Ramirez, Giuseppe Lisanti, Samuele Salti, Luigi Di Stefano
内容简介
本文提出了LLaNA,这是第一个通用的NeRF语言助手,旨在将神经辐射场(NeRF)与多模态大型语言模型(MLLM)结合。LLaNA能够执行新的任务,如NeRF图像描述和问答。该方法直接处理NeRF的多层感知器(MLP)权重,以提取表示对象的信息,而无需渲染图像或实现3D数据结构。此外,研究团队构建了一个包含文本注释的NeRF数据集,用于各种NeRF语言任务,并开发了基准来评估该方法的NeRF理解能力。实验结果表明,处理NeRF权重的效果优于从NeRF中提取2D或3D表示。
分点关键点
-
LLaNA框架
- LLaNA是第一个能够直接处理NeRF权重的多模态大型语言模型。通过使用元编码器,LLaNA能够将NeRF的权重映射到预训练的LLM嵌入空间,从而实现对NeRF的理解和推理。
- LLaNA是第一个能够直接处理NeRF权重的多模态大型语言模型。通过使用元编码器,LLaNA能够将NeRF的权重映射到预训练的LLM嵌入空间,从而实现对NeRF的理解和推理。