强化学习(俞凯)一、导论

小白学强化学习,从零开始学习的,肯定会有很多不对的地方,望各位大佬指正,看的是俞凯老师翻译的强化学习,做一个学习笔记也督促自己学习。第一次自己写这种类读书笔记的东西,开始还能看的进去,井字棋那里已经看晕了,俞凯老师翻译的挺好的,没有那种直译的感觉,网上没有找到pdf,如果有大佬有的话,求分享,如果有理解不到位的地方,请大佬指正。

目录

1.1 强化学习

1.2 示例

1.3 强化学习要素

1.4 局限性与适用范围

1.5 井字棋

1.6 本章小结


1.1 强化学习

强化学习就是学习“做什么才能使得数值化的收益信号达到最大化”。就像我们小时候学习的时候,干什么会被家长表扬,干什么会被批评一样,谁都想被表扬,从而获得所谓的最大化收益,那我们尽量去获得更多的表扬,就像老师说的比较困难的例子,“动作往往影响的不仅仅是即时收益,也会影响下一个情景,从而影响随后的收益。”就像小时候考试,你一直考高分,哪怕作弊了没让老师发现,那么如果过了一段时间之后,老师发现你作弊了,他也会原谅你,或者给你一个机会。这应该就是所谓的延迟收益。

“试错和延迟收益——是强化学习两个最重要最显著的特征。”

强化学习即表示了一个问题,也是一类解决这种问题的方法,同时还是一个研究此问题及其解决方法的领域。

强化学习多是交互式的,具备学习能力的智能体必须能够在某种程度上感知环境的状态,然后采取动作并影响环境状态(感知、动作、目标)。强化学习与有监督学习和无监督学习是不同的。

  1. 强化学习与有监督学习的不同点在于,有监督学习是从外部监督者提供的带标注训练集中进行学习。但是在交互问题中,我们不可能获得在所有情境下即正确又有代表性的动作示例(标注)。对于未知领域,我们只能从自身的经验中学习,就像品尝食物,我们面对未知的食物又特别饿的情况下怎么办,只能自己尝试(去掉头都能吃鸡肉味嘎嘣脆)
  2. 强化学习与无监督学习的不同点在于,无监督学习是一个典型的寻找未标注数据中隐含结构的过程。但是强化学习的目的是最大化收益信号,而不是找出数据的隐含结构。给我的感觉就是一个注重过程一个注重结果,就像一个看期末考试分数,一个看平时分数。

“试探与开发”在一个随机任务中,为了获得对收益期望的可靠估计,需要对每个动作多次尝试。比如你在受伤抹药的时候,可能通过经验我们知道用某一个药可以一周好,用别的可能会直接升仙,也有可能直接痊愈,不去实验也可以达到想要的结果,但是肯定不是“最”优的。

当强化学习涉及规划时,它必须处理规划和实时动作选择之间的相互影响,以及如何获取和改善环境模型的问题。

1.2 示例

这里作者举了一些像游戏或者生物本身的例子。这些例子有一个共同的特征,它们都涉及一个活跃的决策智能体和环境之间的交互作用,在这个不确定的环境中,智能体想要实现一个目标。智能体的动作会影响未来环境的状态,进而影响未来的决策和机会。因此正确的选择需要考虑到间接的、延迟的动作后果,需要有远见和规划。

在这些例子中,我们无法完全预测到动作的影响,因此智能体必须频繁地监视其环境并做出适当的反应。同时它可以利用这些经验来改进性能。这给我一种感觉很像奇异博士的时间宝石,所谓的未来就是他尝试了几千万次得出结果。

1.3 强化学习要素

强化学习系统有四个核心要素:策略、收益信号、价值函数以及对环境建立的模型。

  1. 策略定义了学习智能体在特定时间的行为方式。策略本身是可以决定行为的。
  2. 收益信号定义了强化学习问题中的目标,表明了在短时间内什么是好的。智能体的唯一目标是最大化长期总收益。
  3. 价值函数表名从长远看什么是好的。
  4. 对环境建立的模型,它允许对外部环境的行为进行推断。

1.4 局限性与适用范围

不处理构建、改变或学习状态信号的问题。

1.5 井字棋

有时间再续写。

1.6 本章小结

强化学习是一种对目标导向的学习与决策问题进行理解和自动化处理的计算方法。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值