炸了!谷歌发布史上最大"通才"模型PaLM-E,5620亿参数!看图说话还能操控机器人...

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【计算机视觉】微信技术交流群

转载自:新智元

【导读】谷歌刚刚上线了一个炸弹级「通才」模型PaLM-E,足足有5620亿参数。它是一种多模态具身视觉语言模型,从引导机器人执行任务,到回答关于可观察世界的问题,全都能搞定。

大语言模型的飞速「变异」,让人类社会的走向越来越科幻了。点亮这棵科技树后,「终结者」的现实仿佛离我们越来越近。

前几天,微软刚宣布了一个实验框架,能用ChatGPT来控制机器人和无人机。

谷歌当然也不甘其后,在周一,来自谷歌和柏林工业大学的团队重磅推出了史上最大视觉语言模型——PaLM-E。

cae73fd3c17fd8de6c88845465da6c55.png

论文地址:https://arxiv.org/abs/2303.03378

作为一种多模态具身视觉语言模型 (VLM),PaLM-E不仅可以理解图像,还能理解、生成语言,而且竟然还能将两者结合起来,处理复杂的机器人指令。

此外,通过PaLM-540B语言模型与ViT-22B视觉Transformer模型相结合,PaLM-E最终的参数量高达5620亿。

d2c02b34f7f0f00b2d10e3b6be83bc1a.jpeg

横跨机器人、视觉-语言领域的「通才」模型

PaLM-E,全称Pathways Language Model with Embodied,是一种具身视觉语言模型。

它的强大之处在于,能够利用视觉数据来增强其语言处理能力。

dbcfc797cb52ed2045187875eb99eabb.png

当我们训练出最大的视觉语言模型,并与机器人结合后,会发生什么?结果就是PaLM-E,一个 5620亿参数、通用、具身的视觉语言通才——横跨机器人、视觉和语言

据论文介绍,PaLM-E是一个仅有解码器的LLM,在给定前缀(prefix)或提示(prompt)下,能够以自回归方式生成文本补全。

其训练数据为包含视觉、连续状态估计和文本输入编码的多模式语句。

e217d9fe455a57087cec820a99cc1f8e.gif

经过单个图像提示训练,PaLM-E不仅可以指导机器人完成各种复杂的任务,还可以生成描述图像的语言。

可以说,PaLM-E展示了前所未有的灵活性和适应性,代表着一次重大飞跃,特别是人机交互领域。

更重要的是,研究人员证明,通过在多个机器人和一般视觉语言的不同混合任务组合进行训练,可以带来从视觉语言转移到具身决策的几种方法,让机器人规划任务时能够有效地利用数据。

8d3b49dddd83a3b2814b4f422018e6bb.png

除此之外,PaLM-E尤为突出的一点在于,拥有强大的正迁移能力。

在不同领域训练的PaLM-E,包括互联网规模的一般视觉-语言任务,与执行单一任务机器人模型相比,性能明显提高。

0c9fd847626ea7df180e1215a8b1962e.png

而在模型尺度上,研究人员则观察到了一个显著的优势。

语言模型越大,在视觉语言与机器人任务的训练中,保持的语言能力就越强。

从模型规模来看,5620亿参数的PaLM-E几乎保持了它所有的语言能力。

20749e8d0fd854de47c1b11f26dc3af5.png

尽管只在单个图像进行训练,但PaLM-E在多模态思维链推理和多图像推理等任务中表现出突出的能力。

在OK-VQA基准上,PaLM-E取得了新的SOTA。

8104c8af38fc8271575e4965ac71a07b.png

测评结果

在测试中,研究人员展示了如何使用PaLM-E在两个不同实体上执行规划以及长跨度的任务。

值得注意的是,所有这些结果都是使用基于相同数据训练的相同模型获得的。

在以前,机器人通常需要人工的协助才能完成长跨度任务。但现在,PaLM-E通过自主学习就可以搞定了。

ac1868e7f611bcb162ba341f0fe68eec.png

比如,「从抽屉里拿出薯片」这类指令中,就包括了多个计划步骤,以及来自机器人摄像头的视觉反馈。

经过端到端训练的PaLM-E,可以直接从像素开始对机器人进行规划。由于模型被集成到一个控制回路中,所以机器人在拿薯片的过程中,对途中的干扰都有鲁棒性。

c20f298cfa60ddc670361281d806a8ab.gif

人类:给我来点薯片。

机器人:1. 走到抽屉旁 2.打开最上面的抽屉 3. 从最上面的抽屉里拿起绿色的薯片 4.放在柜台上。

f1fba4381950471fca524f3648a87b60.png

同样,让机器人去拿一个苹果时,给出图片后,机器人执行任务步骤如下——

人类:给我拿一个苹果。

机器人:1.走向苹果 2.拿起苹果 3.把它拿给操作员 4.放下苹果 5.完成。

65c873c18f66f8e708eb62ee40b44352.png

除了执行长跨度任务,PaLM-E可以让机器人执行规划任务,比如排列积木。

研究人员根据视觉和语言输入成功地进行多阶段的计划,并结合了长时间范围的视觉反馈,进而让模型能够成功地规划一个长周期的任务「将积木按颜色分类到不同的角落」。

如下,在排列组合上,机器人化身为多面手,按颜色将积木排序。

fee0f8bf69fc965d529c40596e84d4b9.gif

模型的泛化方面,PaLM- E控制的机器人可以把红色积木移到咖啡杯的旁边。

值得一提的是,数据集只包含有咖啡杯的三个演示,但其中没有一个包括红色的积木块。

f8a98f021700cf17c1ce6a3c58ac606a.gif

类似的,虽然模型此前从未见过乌龟,但照样可以顺利地把绿色积木推到乌龟旁边

9e3eaa964ab0b585348d944cd6425f5a.gif

在零样本推理方面,PaLM-E可以在给定图像的情况下讲述笑话,并展示了包括感知,基于视觉的对话和计划在内的能力。

d836f697640f8c06ff7ffc6262bc6e82.png

多张图的关系,PaLM-E也整得很明白,比如图一(左)在图二(右)的哪个位置。

f0611c89c796f309b8ce7843bd55310f.png

此外,PaLM-E还可以在给定带有手写数字的图像执行数学运算。

比如,如下手写餐馆的菜单图,2张披萨需要多少钱,PaLM-E就直接给算出来了。

5db6ec0b63f3b78360bf1508ac25706b.png

以及一般的QA和标注等多种任务。

0a3d808a67492898b88ade79274a55af.png

最后,研究结果还表明,冻结语言模型是通向完全保留其语言能力的通用具身多模态模型的可行之路。

但同时,研究人员还发现了一条解冻模型的替代路线,即扩大语言模型的规模可以显著减少灾难性遗忘。

参考资料:

https://palm-e.github.io/

点击进入—>【计算机视觉】微信技术交流群

最新CVPP 2023论文和代码下载

 
 

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

多模态和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-多模态或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如多模态或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer333,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!

▲扫码进群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
### Tomcat java.lang.IllegalStateException 输出目录未找到 Windows 11 的解决方案 当在 Windows 11 上运行 Tomcat 并遇到 `java.lang.IllegalStateException: 无输出目录` 错误时,通常是因为权限设置不正确或者某些配置文件路径存在问题。以下是针对该问题的具体分析和解决方法: #### 权限不足导致无法创建或访问输出目录 此错误可能源于当前用户对 Tomcat 安装目录及其子目录缺乏足够的操作权限。为了修复这一问题,可以调整 Tomcat 文件夹的安全性设置[^3]。 具体做法如下: - 找到安装 Tomcat 的根目录。 - 右键单击该目录并选择 **属性** -> **安全** -> **编辑**。 - 在弹出的窗口中查找名为 **Users** 或者其他相关用户的组名。 - 将其权限中的 **完全控制** 设置为允许状态,并点击应用按钮保存更改。 通过上述步骤赋予必要权限后再次尝试启动服务应该能够有效缓解此类异常情况的发生概率。 另外还需注意检查是否有其他因素干扰正常流程执行过程比如杀毒软件实时监控可能会阻止程序写入特定位置的数据从而引发类似的状况所以建议暂时关闭防护功能后再做测试验证是否依旧存在同样现象如果排除外部影响则需进一步排查内部逻辑是否存在漏洞等问题所在之处以便采取针对性措施加以改进优化整个系统的稳定性和可靠性水平达到预期目标要求标准之上才行得通才行不通的就只能继续寻找新的办法来解决了。 ```bash # 示例命令:修改Tomcat目录权限(仅适用于Linux/Mac环境) sudo chmod -R 755 /path/to/tomcat/ ``` 请注意,在生产环境中应谨慎授予过多不必要的权限以保障安全性不受威胁。 --- #### 配置文件路径错误 另一种可能性是由于部署过程中指定的工作目录参数有误所致。确保 catalina.bat 脚本里定义的相关变量指向实际存在的合法地址非常重要;否则也会造成同样的后果即找不到所谓的“输出目录”。 可以通过以下方式确认及修正潜在的风险点: 1. 打开 `%TOMCAT_HOME%\bin\catalina.bat` 文件查看其中关于工作区设定的部分内容; 2. 如果发现任何可疑的地方记得及时更正过来使之符合实际情况需求即可恢复正常运作模式而无需担心再碰到之前提到过的那种麻烦事啦! --- ### 总结 综上所述,对于因权限不足或是配置失误所引起的 `java.lang.IllegalStateException: 无输出目录` 这一常见故障而言,我们既可以借助操作系统自带工具快速便捷地完成相应授权处理作业又能通过对源码深入剖析定位根本原因进而实施精准有效的补救手段最终达成彻底消除隐患的目的实现长期平稳高效运转的理想效果哦朋友们快来试试吧相信你们一定会有意想不到收获哒!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值