reinforcement learning,增强学习:Model-Free Control



上次内容:

Model-Free Prediction。所谓model-free,是指没有给定MDP(即MDP未知,甚至不知道是不是MDP过程)。

希望在未给出MDP的情况下,进行prediction(对于给定的policy π,evaluate该policy π能够达到的Vπ(s))。

Model-Free Prediction有两大方法:Monte-Carlo Learning和Temporal-Difference Learning。


本次内容:

Model-Free Control。所谓model-free,是指没有给定MDP(即MDP未知,甚至不知道是不是MDP过程)。

希望在未给出MDP的情况下,进行Control(理想情况是policy也没有给出,Optimise the value function of an unknown MDP)。

Model-Free Control有两大方法:on-policy Learning和off-policy Learning;其中,on-policy Learning又分为on-policy MC和on-policy TD。







Model-Free Control解决的问题

Optimise the value function of an unknown MDP








要实现Model-Free Control,可用的解决方案:

回忆上两节课optimal MDP的两种方法:policy iteration和value iteration。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值