井字游戏的强化学习三

一、强化学习的特征

        这个简单的例子说明了强化学习方法的一些关键特征。首先,强调在与环境互动的同时学习,在这种情况下是与对手玩家互动。其次,有一个明确的目标,正确的行为需要有计划或远见,考虑到自己选择的延迟影响。例如,简单的强化学习玩家将学会为目光短浅的对手设置多步陷阱。强化学习解决方案的一个显著特点是,它可以在不使用对手模型的情况下,也不需要对未来状态和行动的可能序列进行明确搜索的情况下实现规划和前瞻的效果。

        虽然这个例子说明了强化学习的一些关键特征,但它非常简单,可能会给人一种强化学习比实际情况更有限的印象。虽然井字游戏是一个双人游戏,但强化学习也适用于没有外部对手的情况,即“对抗自然的游戏”。“强化学习也不局限于行为分解为不同情节的问题,比如单独的井字游戏,每个情节结束时才有奖励。当行为无限期地持续时,以及当可以在任何时候获得各种程度的奖励时,它同样适用。

        强化学习也适用于那些甚至没有分解成离散时间步长的问题,比如井字游戏。一般原理也适用于连续时间问题,尽管理论变得更加复杂。

二、状态集的限制

        这个游戏有一个相对较小的有限状态集,而当状态集非常大甚至无穷大时,可以使用强化学习。例如,有学者将上述算法与人工神经网络相结合,以学习玩具有大约1020个状态的棋。其程序比以前的任何程序都能玩得更好,现在已经达到了世界上最好的人类玩家的水平。神经网络为程序提供了根据其经验进行归纳的能力,因此在新的状态下,它根据其网络确定的过去面临的类似状态中保存的信息来选择动作。强化学习系统在具有如此大状态集的问题中的工作效果与它从过去的经验中归纳的恰当程度密切相关。正是在这个角色中,我们最需要的是强化学习的监督学习方法。神经网络并不是唯一的,也不一定是最好的方法。

        在这个井字游戏的例子中,学习是在没有游戏规则之外的先验知识的情况下开始的,但强化学习绝不意味着需要对学习和智力进行制表。相反,先验信息可以以各种方式融入强化学习,这对有效学习至关重要。在井字游戏的例子中,我们还可以了解真实状态,而当状态的一部分被隐藏时,或者当不同的状态在学习者看来是相同的时,强化学习也可以应用。然而,这种情况要困难得多。

三、关于环境模型

        井字游戏玩家能够向前看,并知道每一个可能的动作会产生什么状态。要做到这一点,它必须有一个游戏模型,让它能够“思考”环境将如何改变,以应对它可能永远不会做出的举动。许多问题都是这样的,但在其他问题中,甚至缺乏行动效果的短期模型。强化学习可以应用于任何一种情况。不需要模型,但如果模型可用或可以学习,则可以很容易地使用模型。

        另一方面,有一些强化学习方法根本不需要任何类型的环境模型。无模型系统甚至无法思考其环境将如何响应单个操作而发生变化。从这个意义上说,井字游戏玩家相对于对手是无模型的:它没有任何类型的对手模型。因为模型必须相当准确才能有用,所以当解决问题的真正瓶颈是难以构建足够准确的环境模型时,无模型方法可能比更复杂的方法更有优势。无模型方法也是基于模型的方法的重要组成部分。在讨论如何将无模型方法用作更复杂的基于模型的方法的组成部分之前,我们专门用了几章来介绍无模型方法。但是强化学习可以在系统中的高水平和低水平上使用。尽管井字游戏玩家只学习了游戏的基本动作,但没有什么能阻止强化学习在更高的水平上发挥作用,因为每个“动作”本身都可能是一种可能精心设计的解决问题的方法的应用。在分层学习系统中,强化学习可以在多个层面上同时进行。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Older司机渣渣威

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值