初探强化学习(8)强化学习的几个基础方法(动态规划,蒙特卡洛方法,时间差分方法TD)

这个博客主要记录强化学习的三个基础的方法。
分别是:动态规划,蒙特卡洛方法,时间差分方法TD
使用者三个方法需要强化学满足不同的条件:
比如动态规划方法要求必须知道和环境模型,也就是各状态之间的转移概率。也就是说使用动态规划的方法就说明该方法是基于模型的强化学习。

我们在该博客中分别介绍了三种方法对应的求解状态估值和进行策略优化的异同。

1. 宏观的总结

动态规划是一种基于模型的强化学习方法采用的方法;
很简单,动态规划方法需要知道具体的环境模型才能使用。
蒙特卡罗是一种一条路走得到黑的试错型的无模型方法。
梦塔卡罗是一种基于大叔定于的统计模型,它用一个随机初始化的策略让agent按照初始策略从任何一个状态从头走到结束状态,最终得到一个Episode。所以叫一条路走到黑。
时间差分是一种不断试错的无模型方法。
时间差分方法就比蒙特卡洛方法有好一点,它不需要完整的Episode执行完毕才更新状态值。而是移动一次更新一次。显然,这是比较机智的。
同样是无模型的方法。用一个例子来形容蒙特卡罗和时间差分:
我们小时候放学回家一般都要做作业,这是爸妈可能不在家,我们又喜欢看动画片。然后就有了下面的两种情况:
第一种情况是:你不管后果,到家后要么一直写作业,要么一直看电视,知道你爸妈回来。
很显然,如果你一直看电视,你爸妈回家你难免一顿混合双打。
如果你一直写作业,写完老师的作业还自己内卷一下有预习了下周的课程。这是你爸妈会夸你奖励你。然后你吸取这个经验。这就是蒙特卡洛方法。
第二种情况时,你歇一会作业,看一会电视…这时候。大概率出现你爸妈回家你还没写完作业,但是可能你写作业被你马爸妈看到,也可能是你看电视被你爸妈看到。.这就是时间差分。

动态规划法的思路很简洁,但实际操作起来有一定的难度,需要通过模型在一棵树上从下到上传递,才能把状态的估值计算准确。
蒙特卡罗法的操作很简单,只不过需要在一个Episode结束后才能返回一个状态的估值更新。

时间差分法的思路与蒙特卡罗法不同,它不希望机器人通过一个完整的 Episode试探之后才
对一个状态进行估算,它可以走一步就估算一次。也许读者朋友会有点纳闷:走一步就估算一次,
岂不是连这条路能不能走到底都不知道?这估值准吗

时间差分的三个标志性的方法:
SARSA
Q-Learning
DDPG

下面逐个详细介绍

2. 动态规划

3. 蒙特卡洛

4. 时间差分

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值