强化学习中的递归神经网络

本文探讨了强化学习(RL)的特性,它介于监督和无监督学习之间,强调了RL在自动化、优化和机器人领域的应用。特别提到了DeepMind团队的R2D2算法,该算法利用循环神经网络在Atari 2600游戏中展现出超过普通人类玩家20倍的表现。RL中的Q-learning方法和Q函数被介绍,作为代理学习环境状态和动作策略的基础。
摘要由CSDN通过智能技术生成

在解决模型训练的机器学习问题时,可以使用已知的输出(监督学习),或者模型可以在事先不知道正确结果的情况下自行学习在可用数据中寻找模式(无监督学习)。

强化学习(RL)不属于这两种类型;然而,它同时具有监督和非监督方法的特性。这种机器学习类型最近得到了快速发展,因此出现了许多理论算法[1]。然而,对 RL 产生浓厚兴趣背后的真正原因是可以实现 RL 的各种实际问题,例如自动化、优化和机器人化。当系统需要分析环境并考虑收到的反馈选择行为策略时,强化学习最有效。

2013 年,DeepMind 团队提出了一种算法,用于训练计算机玩 7 个Atari 2600没有人类参与的游戏[2]。计算机自己执行所有动作,估计哪些动作在游戏中带来最大收益,并选择获胜策略。该算法基于 RL 算法。目前,雅达利游戏被用作新强化学习方法的基准。最近由同一个 DeepMind 团队设计的 R2D2 算法比普通人类玩家 [3] 的表现要好大约 20 倍。R2D2 的优势在于实现循环神经网络。尽管这些神经网络之前已经在其他算法中实现过,但新方法使所有其他深度 Q 学习增强功能保持有效。在本文中,我们将讨论结果是如何实现的。

RL 和 Q 学习简介

强化学习 (RL) 介于监督学习(当每个案例都有正确答案时)和无监督学习(根本没有正确答案)之间。在 RL 中,经过训练的模型通常称为代理。代理与特定环境交互。应该为代理确定可以在给定环境中执行的动作空间。作为对代理行为的响应,环境发送奖励并报告其新状态。通过这种方式,智能体积累了有关其在某些状态下的行为的奖励的知识。代理的目标是在设定的时间内获得最大的奖励。因此,评价

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值