【论文笔记】OpenAI宫斗背后：发现了可能优于小鸡毛表现的机器人，AGI的希望 Q* search and Q transformer(A star search with Q-Learning)

Mango_Holi

已于 2023-11-24 15:05:58 修改

阅读量1.2k

点赞数 29

文章标签：论文阅读人工智能机器人

于 2023-11-24 15:00:01 首次发布

本文链接：https://blog.csdn.net/Mango_Holi/article/details/134593041

版权

前言

最近OpenAI的宫斗剧上演的精妙绝伦，简直就是《硅谷》+《继承》，强烈推荐这两部剧集。AIGC的群里都在说Q*是揭示AI接近AGI的一篇论文，那就费点时间拨开云雾吧。为了方便大众更好地理解Q*，本人在快速浏览过论文后首先得出此结论公式：

Q* = (1992年的Q-learning + 1968年的A star算法) * Deep Transformer Learning

本篇文章解读两篇论文。强烈建议延伸阅读第二篇文章的视频：Q-Transformer

Q-Transformer简介之机器人如何实现自主Q学习的动画

1、第一篇介绍Q* search论文全称是：A* SEARCH WITHOUT EXPANSIONS: LEARNING HEURISTIC FUNCTIONS WITH DEEP Q-NETWORKS，作者是加州大学尔湾分校和南卡罗琳娜大学的研究员在2023年5月份提出的。原文链接：https://arxiv.org/abs/2102.04518

2、第二篇介绍Q transformer论文的全称是：Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions，作者是Deep Mind团队在2023年9月提出的。[2309.10150] Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions (arxiv.org)

Gpt-4先summary：

Q* search论文解决了使用A*搜索在大动作空间中高效解决问题的挑战，这是人工智能领域一个重要的方法。A*搜索的计算和内存需求随动作空间大小线性增长，尤其是当使用由深度神经网络学习的计算成本高昂的启发式函数时。为了克服这一问题，作者引入了Q*搜索，这是一种新的搜索算法，采用深度Q网络。这种方法允许通过网络的单次前向传递计算节点子项的转换成本和启发式值之和，无需显式生成这些子节点。这显著减少了计算时间和每次迭代生成的节点数量。作者以包含1872个元动作的大动作空间下的魔方为例，展示了Q*搜索的有效性。结果显示，Q*搜索比A*搜索快达129倍，生成的节点数量少达1288倍。此外，他们证明了Q*搜索在给定适当启发式函数的情况下总能找到最短路径。

在Q transformer这项工作中，作者提出了一种可扩展的强化学习方法，用于从大型离线数据集中训练多任务策略，这些数据集可以利用人类示范和自动收集的数据。作者的方法使用Transformer为通过离线时差备份训练的Q函数提供可扩展的表示。因此，我们将这种方法称为Q-Transformer。通过离散化每个动作维度并将每个动作维度的Q值表示为单独的标记，我们可以应用有效的高容量序列建模技术进行Q学习。作者介绍了几个设计决策，这些决策使得离线RL训练具有良好的性能，并展示了Q-Transformer在一套大型多样化的现实世界机器人操控任务中，超越了以前的离线RL算法和模仿学习技术。

到这里GPT已经剥夺了我解读论文的乐趣了。

论文解读

**【Q* Search】A* SEARCH WITHOUT EXPANSIONS: LEARNING HEURISTIC FUNCTIONS WITH DEEP Q-NETWORKS**

首先，在介绍Q* search之前要知道，A*算法是一个贪心算法。其讲求邻近收益最大化，即找到最近最好的路径，以此猜测通过迷宫的最优方法。它主要用于agent在现实中的行动指导&#

最低0.47元/天解锁文章

Mango_Holi

关注

29
点赞
踩
24

收藏

觉得还不错? 一键收藏
打赏
0
评论
【论文笔记】OpenAI宫斗背后：发现了可能优于小鸡毛表现的机器人，AGI的希望 Q* search and Q transformer(A star search with Q-Learning)

通过离散化每个动作维度并将每个动作维度的Q值表示为单独的标记，我们可以应用有效的高容量序列建模技术进行Q学习。这里指的是类似无人驾驶的学习是有模拟环境的，建筑装修也有，但不会耗费极大的资源来建造一个无意义的制作爆米花的模拟环境，Q-Transformer在只有真实环境的训练数据下也可以学习。**可伸缩性(可扩展性)是一种对软件系统计算处理能力的设计指标，高可伸缩性代表一种弹性，在系统扩展成长过程中，软件能够保证旺盛的生命力，通过很少的改动甚至只是硬件设备的添置，就能实现整个系统处理能力的线性增长，实现高。
复制链接

扫一扫