强化学习原著翻译

很久没写博客了,准备记录下自己翻译强化学习原著的过程,入坑开始。

1.1强化学习

强化学习是一种学习如何把状态映射到动作,并获得奖励的学习机制。学习者不会被告知该采取什么行为,但是取而代之的是通过尝试这些动作去发现什么动作会获得最大的奖励。在一些比较有趣和富有挑战性的案例中,动作不仅仅会影响立即的奖励并且会影响接下来的状态,并且通过接下来的状态,会影响到随后而来的奖励。强化学习最重要可区分的特征是试错的探索机制和延迟奖励机制。
强化学习和很多名字以“ing”结尾的话题一样,(例如机器学习,爬山算法)同时是一种问题,一类能很好解决问题的方法并且是一个研究这类问题和问题解决方法的一个领域。这非常便捷的使用了一个名字去命名上述三个事情。但是,很有必要去清晰的分开三个概念(问题,方法,领域)。特别的,在强化学习中,区分问题和解决问题的方法是非常重要的。不能很好的区别这两个概念将会是困惑的来源。
我们使用动态规划理论的思想来规范化强化学习的问题。特别的,正如隐马尔科夫过程的最优控制一样。这种规范化的详细描述将在Chapter 3,但是最基本的思想是:采样实际问题最重要的方面,训练一个智能体多次与环境交互去达到一个目标。智能体必须能够在一定程度上感知环境的状态并且能够采取行动影响环境的状态。马尔科夫过程基本概念无差别的包含感知,行动,目标三个方面。我们认为任何适合解决这种问题的方法都是强化学习方法的一种。
强化学习不同于监督学习(在机器学习领域最近一直被研究的方法)。监督学习从一组包含被外部富有知识的监督者提供标签的样例的数据集学习。每一个样例都是一种情况的描述,都带有标签,标签描述的是系统在该情况下的应该采取的正确动作,每一个样例用来区别这种情况应该属于哪一类。这种学习的目标是推断和概括,它能发现在训练集中没有展现的每种情况下该采取什么正确动作。这是一种很重要的学习,但是却不能够从交互中学习。在交互问题中,通常无法获得带有正确并且适用不同情况的智能体必须采取的动作的样例。在一些期望通过学习获得最大利益的位置领域,智能体必须能够从它自己的经历中学习。
强化学习同样不同于无监督学习。无监督学习是一种能够发现不带标签的数据中的隐藏结构的学习方法。监督和无监督学习试图去解释机器学习一切问题,但是这是不可能的。尽快尝试认为强化学习是一种无监督学习,因为它不需要依赖正确行为的样例。强化学习试图去最大化一个奖励信号而不是去寻找隐藏的数据结构。在智能体的经验数据中表象结构确实对强化学习特别有用,但是这并不能说明关于最大化一个奖励信号的强化学习问题。因此,我们认为强化学习是第三种机器学习的范式,不同于监督,无监督学习和其他的学习机制。
强化学习中出现的不同于其他学习的最大挑战是,探索和利用之间的交换。为了获得大量的奖励,一个强化学习智能肯定会倾向于之前尝试过并发现是能够产生有效奖励的动作。但是,为了发现这些动作,它必须尝试之前没有尝试过的动作。为了获得奖励,智能体必须利用已经尝试过的动作,但是,为了在未来能采取更好的动作,智能体必须探索没有尝试过的动作。如果没有各种任务的失败,利用还探索不能唯一的被确定。智能体必须尝试大量的动作并且优先使用之前认为最优的动作。在一个随机的任务中,每一个动作必须被尝试很多次为了获得一个对于期望奖励的可靠的估计。探索和利用的困惑已经被数学家们集中研究了数十年,然而任然没有解决。现在,我们简单的认为完全平衡探索和利用并没有出现在监督和无监督学习中,至少在他们最简化的概念中。(未完待续)

参考文献

[1]Reinforcement Learning

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值