强化学习入门笔记4——Dyna-Q 算法

Dyna-Q 算法
Dyna-Q 算法是一个经典的基于模型的强化学习算法
Dyna-Q 使用一种叫作Q-planning 的方法来基于模型生成一些模拟数据, 然后用模拟数据和真实数据一起改进策略。(闻到了一点点卡尔曼滤波的味道?)

Q-planning 每次选取一个曾经访问过的状态 s, 采取一个曾经在该状态下执行过的动作a , 通过模型得到转移后的状态 s′ 以及奖励 r, 并根据这个模拟数据( s, a, r, s′) , 用 Q-learning 的更新方式来更新动作价值函数

特别的,当N=0是就是Q-learning,等我有空自己实现一下

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值