论文阅读
文章平均质量分 94
目前主要是简单翻译论文以辅助理解,并非论文的详细解读
别来这个网址
这个作者很懒,什么都没留下…
展开
-
ConceptFusion 论文翻译
构建三维环境地图对于机器人导航、规划和与场景中的物体进行交互来讲至关重要。大多数现有的集成语义概念与三维地图的方法局限于封闭集合的情况:它们只能对一组在训练时预定义的概念进行推理。此外,这些地图只能使用类别标签或者文本提示进行查询。基本上是开放集的,可以进行超出封闭概念集的推理;本质上是多模态的,可以对3D地图进行多样化的查询,包括语言、图像、音频和3D几何,所有这些都可以协同工作。原创 2023-09-07 20:51:09 · 304 阅读 · 0 评论 -
Language Models are General-Purpose Interfaces论文翻译
基础模型由于在广泛的下游应用中的有效性而受到广泛关注。尽管在架构方面存在很大的收敛(注:convergence,不是很理解这句话),但大多数预训练模型通常仍然针对特定任务或模态开发。在这项工作中,我们提出使用语言模型作为通用接口,连接到各种基础模型。一系列预训练的编码器感知不同的模态(如视觉和语言),它们与充当通用任务层的语言模型相连接。我们提出了一种半因果语言建模目标,共同预训练接口和模块化编码器。我们综合了因果和非因果建模的优势和能力,从而将两者的优点结合起来。原创 2023-08-03 13:11:57 · 147 阅读 · 0 评论 -
3D-LLM论文翻译
大规模语言模型(LLM)和视觉语言模型(VLM)在多个任务上被证明效果显著,如常识推理。但是,这些模型并没有建立在真实的3D物理世界上,后者涉及更为丰富的概念,如空间关系、语用性、物理学、布局等。在这项工作中,我们提出将3D世界注入大规模语言模型,并引入一整套新的3D-LLM。具体来说,3D-LLM可以接受3D点云及其特征作为输入,并执行各种3D相关任务,包括字幕、密集字幕、3D问答、任务分解、3D定位、3D辅助对话、导航等。通过设计三种提示机制,我们能够收集超过30万条涵盖这些任务的3D语言数据。原创 2023-08-03 20:25:42 · 282 阅读 · 0 评论 -
Kosmos-2论文翻译
我们提出了KOSMOS-2,一个多模态大型语言模型(MLLM),使其具备感知对象描述(例如,边界框)和将文本与视觉世界感知的新能力。具体来说,我们将指代表达式表示为Markdown中的链接,例如“[text span](bounding boxes)”, (参考下面的图可以更好的理解这段话,作者注)其中对象描述是位置词元的序列。我们构建了大规模的具有视角信息的图像-文本对数据集(称为GRIT)与多模态语料库一起训练模型。原创 2023-08-09 17:03:23 · 321 阅读 · 0 评论