强化学习 第一节

强化学习:

基本元素:Agent/Environment/Goal
一开始强化学习就是基于游戏:围棋、Dota、星际争霸等
重要元素:State/Action/Reward
奖励,一般是实数,有可能为0.是根据最终的目标来设定的
核心元素:Policy/Value
策略是个函数,输入状态然后输出行动
价值也是个函数,策略函数取决于价值函数。价值函数一般分为状态价值函数,以及状态行动价值函数。
它们的关系:如下图。
(补充:行动由策略函数决定,策略函数也可以用于树搜索。)
在这里插入图片描述
强化学习的目标:一个好的价值函数,好的价值函数决定好的策略强化学习的主要特点:

  • Trail and Error试错-就是在不断的尝试中去学习
  • Delayed Reward 延迟奖励 :一个行动可能没奖励,但一定有价值

强化学习的核心问题:Exploration vs Exploitation 之间的权衡 也就是勘探vs 利用一般利用的是价值函数(包括状态价值函数、状态行动价值函数)
误差:Error后果:Outcome
1)K-armed Bandit 多臂老虎机特点:无延时奖励,所有奖励均实时,因而只需要学习不同行动所具有的价值
估计行动价值(价值函数)的方法:样本平均法Sample-Average
在这里插入图片描述
策略函数:Greedy 贪婪,也就是Exploitation。具体来讲就是选择价值最大的那个行动去做:在这里插入图片描述
通过初始值的适当选择,能够使得贪婪策略也能及进行足够的Exploration。
展开说说用Sample Average样本平均法来估计价值的过程:
在这里插入图片描述
上图是考虑只有一个状态,没有延迟奖励的情况,Q1指的是某个行动价值的初始值,Qn+1是指在采取这个行动n次之后,也即得到了n次对应的奖励之后对这n次奖励值的一个平均。
2)基于误差来学习(步长为1/n的误差学习法)
在这里插入图片描述
后面这部分里面Qn是我们对于Rn的一个预测,在第n次采取这个行动之后,我们实际得到的奖励是Rn,因此Rn-Qn是实际值与预测之间的一个误差,也就是Error,我们称之Reward Prediction Error奖励预测误差。式子中的1/n称之为步长,或者说是学习率。
在这里插入图片描述
上面的方法中显示了一种新的学习思路,即基于误差来学习,也叫步长为1/n的误差学习法。
在上面的基础上做改进:加权平均,将1/n换为一个常数,更看重最近的奖励。
在这里插入图片描述
在算数平均中,价值的初始估计值Q1对于之后的价值估计是没有影响的,而在加权平均中,价值的初始估计值Q1对于之后的价值估计是有影响的。
3)完整的强化学习问题又是怎样的呢?
【拥有多个状态和延迟奖励,并且行动会对未来产生影响的完整的强化学习问题】
用到的是ε-Greedy策略+基于误差的学习法,所要解决的问题是OOXX游戏
前面的基于误差的学习法讨论的是行动价值的学习公式,它的条件是只有一个状态并且没有延迟奖励的情况,但实际情况下有很多状态,并且存在延迟奖励,因此需要进一步得到状态价值函数。价值的定义是未来所能得到的所有奖励之和的估计值。
状态行动价值的学习表达式:
在这里插入图片描述
在St状态下,采取了At这一行动之后,直到游戏结束,我们将实际得到的奖励之和减去旧的估计值,就得到了误差。
对上面的小式子进行优化,将其中的一个组成式子替换一下:
在这里插入图片描述
就能得到下面的式子,也就是说不需要等到游戏结束就能够计算出Q(St,At)的新估计值。
在这里插入图片描述
上面的学习方法是Monte Carlo Methods蒙特卡洛方法的雏形。
下面的方法是Temporal-Difference Learning时序差分学习法的雏形:
图片略(在七七的花果山小猴子)

强化学习的特点就在于:从真实的经历中去学习。
Monte Carlo Tree Search蒙特卡洛树搜索:通过假象来进行计划Learning。

  • MiniMax Tree Search:深蓝就是用的这个搜素树,但这棵树会呈现指数级的增长,所以深蓝还加入了Alpha-Beta Pruning,来有效缩减这棵树的规模,从而提高搜索效率。
  • Monte Carlo Rollout算法:只有一层叶结点,然后每个结点往后跑直到结束,将胜率作为价值赋予叶结点,这个价值称为rollout 价值。
    在这里插入图片描述
    【声明:本文是自用文章,图片来源于B站UP主PenicillinLP】
  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值