David Silver UCL强化学习课程学习笔记五之Model-Free Control 无模型控制

Lecture 5: Model-Free Control
https://www.davidsilver.uk/wp-content/uploads/2020/03/control.pdf

Introduction

在这里插入图片描述
同策略和异策略概念,同策略说的是用于采样sample的p和要学习更新的policy一致,即learn on the job。异策略知道是学习和采样用不同的策略。

On-Policy Monte-Carlo Control

在这里插入图片描述
MC策略迭代在估计中用q函数 ,在策略改进中用的在这里插入图片描述
在这里插入图片描述
GLIE用于解决学习开始时有足够的探索,最终得到的策略没有探索,是一个确定策略的问题。最终收敛到的greedy策略即为确定性策略。

On-Policy Temporal-Difference Learning

在这里插入图片描述
更改同策略MC控制中对值函数的估计的MC方法换位TD方法,将每个片段对值函数更新一次换位每个时间步更新一次。这里策略估计方法是sarsa。
在这里插入图片描述
与TD类似 n步 sarsa
在这里插入图片描述

在这里插入图片描述
Sarsa(λ)算法

Off-Policy Learning

在这里插入图片描述
异策略学习的好处

在这里插入图片描述
这里是Q-learning的定义,学了这么多终于将回到q-learning了。具体的解释可以看之前博文的第一篇人工智能学习笔记一之强化学习(Q-learning)
https://blog.csdn.net/dzcera/article/details/122634257
其中最显著的好处在于使用一个探索性策略的同时学习了一个确定性策略。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Summary

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值