强化学习--DeepQnetwork 的一些改进

最新推荐文章于 2022-11-10 16:23:29 发布

anqiu4023

最新推荐文章于 2022-11-10 16:23:29 发布

阅读量151

点赞数

文章标签：人工智能

原文链接：http://www.cnblogs.com/zle1992/p/10266874.html

版权

算Q值与选Q值是分开的，2个网络。

如果更新了，即使有的action没有被采样到，也会更新Q值

Epsilon Greedy 存在的问题是在一局游戏中，

即使是同一个agent也有可能坐车不不同的选择，这是不合理的,

所以在一局游戏中，我们使用同一个q网络，在不回的回合给q网络

加入noise保证探索性。

转载于:https://www.cnblogs.com/zle1992/p/10266874.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注