MountainCar的关键——抵抗梯度消失

最新推荐文章于 2022-08-09 17:58:40 发布

熊猫跳高

最新推荐文章于 2022-08-09 17:58:40 发布

阅读量221

点赞数 1

分类专栏： ai 文章标签： python 强化学习人工智能

本文链接：https://blog.csdn.net/weixin_32076841/article/details/120496811

版权

完整代码链接
写了个Q学习小车上山，感觉不行。把Q表画出来，找找原因。

	...
	# q learning update
	# 其中q是q表，o是离散化的观察（400-900个值），a是三个动作，r是奖励，d是done
	# 1-d的意思是，如果done了，就不用后来的q表更新上一步q值
	q[o][a]=q[o][a]+alpha*(r+(1-d)*gamma*max(q[o1])

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

熊猫跳高

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
MountainCar的关键——抵抗梯度消失

写了个Q学习小车上山，感觉不行。把Q表画出来，找找原因。代码链接 ... # q learning update # 其中q是q表，o是离散化的观察（400-900个值），a是三个动作，r是奖励，d是done # 1-d的意思是，如果done了，就不用后来的q表更新上一步q值 q[o][a]=q[o][a]+alpha*(r+(1-d)*gamma*max(q[o1])-q[o][a]) ... # 可视化q表的代码 def plot_q(self): q=np.a
复制链接

扫一扫