谷歌发布史上最大「机器人、视觉和语言“通才”」模型：PaLM-E 562B

快乐小码农

已于 2023-03-17 12:17:18 修改

阅读量762

点赞数

分类专栏：生成式AI 深度学习 AI 文章标签：机器人人工智能生成式AI模型谷歌视觉模型

于 2023-03-17 12:07:12 首次发布

本文链接：https://blog.csdn.net/u012744245/article/details/129617229

版权

AI 同时被 3 个专栏收录

59 篇文章

订阅专栏

深度学习

36 篇文章

订阅专栏

生成式AI

19 篇文章

订阅专栏

文章目录

谷歌发布史上最大「机器人、视觉和语言“通才”」模型PaLM-E 562B

谷歌发布史上最大「机器人、视觉和语言“通才”」模型PaLM-E 562B

2021年，谷歌曾发表一篇文章，阐述了一种名为 Pathways 的下一代 AI 架构。通过 Pathways 架构，只需训练一个 AI 模型就可以处理上千万种不同的任务。

2022年4月，谷歌发布了一个基于 Pathways 架构的、拥有 5400亿参数的Transformer语言模型，并将之命名为 PaLM，即 Pathways Language Model。

那么，PaLM表现如何？
传送门：谷歌PaLM教AI懂幽默…
当时，在标准任务上，PaLM几乎在所有情况下都比以前的大型机型做得更好。而在高难度的任务上，PaLM实现了突破性的能力。因得益于“思维提示链”策略，在有关推理能力的测评中，PaLM 尤其是在处理算术和常识推理的任务中展现出了令人难以置信的性能。在有关解释生成的测评中，PaLM 向我们证明了它的卓越能力，甚至成功地解释了一些笑话。

2023年3月6日，Robotics at Google、柏林工业大学和 Google Research 团队提出了一个具身多模态语言模型 PaLM-E，通过 PaLM-540B 语言模型与 ViT-22B 视觉Transformer模型相结合，足足有5620亿参数，可以称之为「史上最大视觉语言模型（VLM）」，无需特殊训练就可执行各种任务。PaLM-E 不仅可以理解图像，还能理解、生成语言，而且竟然还能将两者结合起来，处理复杂的机器人指令。

相关研究论文以“PaLM-E: An Embodied Multimodal Language Model”为题，已发表在预印本网站 arXiv 上。

在这里插入图片描述

论文：PaLM-E: An Embodied Multimodal Language Model
机构：Robotics at Google，柏林工业大学，Google Research
作者：Danny Driess, Fei Xia, Mehdi S. M. Sajjadi, Corey Lynch, Aakanksha Chowdhery, Brian Ichter, Ayzaan Wahid, Jonathan Tompson, Quan Vuong, et al
论文地址：https://arxiv.org/abs/2303.03378
GitHub地址：https://palm-e.github.io/

据论文描述，PaLM-E 是一个 decoder-only 的 LLM，在给定前缀（prefix）或提示（prompt）的情况下，以自回归方式生成文本补全，其训练数据为包含视觉、连续状态估计和文本输入编码的多模式语句。

PaLM-E 可以在多样化的实施方案中解决各种具身推理任务，且能够进行跨互联网规模的语言、视觉和视觉-语言域的多样化联合训练。