【论文笔记】OpenAI宫斗背后:发现了可能优于小鸡毛表现的机器人,AGI的希望 Q* search and Q transformer(A star search with Q-Learning)

前言

        最近OpenAI的宫斗剧上演的精妙绝伦,简直就是《硅谷》+《继承》,强烈推荐这两部剧集。AIGC的群里都在说Q*是揭示AI接近AGI的一篇论文,那就费点时间拨开云雾吧。为了方便大众更好地理解Q*,本人在快速浏览过论文后首先得出此结论公式:

        Q* = (1992年的Q-learning + 1968年的A star算法) * Deep Transformer Learning

     本篇文章解读两篇论文。强烈建议延伸阅读第二篇文章的视频:Q-Transformer

Q-Transformer简介之机器人如何实现自主Q学习的动画

1、第一篇介绍Q* search论文全称是:A* SEARCH WITHOUT EXPANSIONS: LEARNING HEURISTIC FUNCTIONS WITH DEEP Q-NETWORKS,作者是加州大学尔湾分校和南卡罗琳娜大学的研究员在2023年5月份提出的。原文链接:https://arxiv.org/abs/2102.04518

2、第二篇介绍Q transformer论文的全称是:Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions,作者是Deep Mind团队在2023年9月提出的。[2309.10150] Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions (arxiv.org)

        Gpt-4先summary:

        Q* search论文解决了使用A*搜索在大动作空间中高效解决问题的挑战,这是人工智能领域一个重要的方法。A*搜索的计算和内存需求随动作空间大小线性增长,尤其是当使用由深度神经网络学习的计算成本高昂的启发式函数时。为了克服这一问题,作者引入了Q*搜索,这是一种新的搜索算法,采用深度Q网络。这种方法允许通过网络的单次前向传递计算节点子项的转换成本和启发式值之和,无需显式生成这些子节点。这显著减少了计算时间和每次迭代生成的节点数量。作者以包含1872个元动作的大动作空间下的魔方为例,展示了Q*搜索的有效性。结果显示,Q*搜索比A*搜索快达129倍,生成的节点数量少达1288倍。此外,他们证明了Q*搜索在给定适当启发式函数的情况下总能找到最短路径。​​

        在Q transformer这项工作中,作者提出了一种可扩展的强化学习方法,用于从大型离线数据集中训练多任务策略,这些数据集可以利用人类示范和自动收集的数据。作者的方法使用Transformer为通过离线时差备份训练的Q函数提供可扩展的表示。因此,我们将这种方法称为Q-Transformer。通过离散化每个动作维度并将每个动作维度的Q值表示为单独的标记,我们可以应用有效的高容量序列建模技术进行Q学习。作者介绍了几个设计决策,这些决策使得离线RL训练具有良好的性能,并展示了Q-Transformer在一套大型多样化的现实世界机器人操控任务中,超越了以前的离线RL算法和模仿学习技术​。

        到这里GPT已经剥夺了我解读论文的乐趣了。

论文解读

【Q* Search】A* SEARCH WITHOUT EXPANSIONS: LEARNING HEURISTIC FUNCTIONS WITH DEEP Q-NETWORKS

        首先,在介绍Q* search之前要知道,A*算法是一个贪心算法。其讲求邻近收益最大化,即找到最近最好的路径,以此猜测通过迷宫的最优方法。它主要用于agent在现实中的行动指导&#

  • 29
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Mango_Holi

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值