自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

seedjack的博客

原创关于DQN中的疑惑

我有个问题想请教，DQN中，在初始化阶段Q function 和 Target network输出都是随机的，那么减少这两个随机输出的误差为什么能update出一个好的policy，是reward起的作用吗，如果是reward引导q值往正确的方向update，那即使是过估计，reward应该也能纠正过来？实在想不明白，望解答 ...

2018-11-22 22:24:02 1061 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

seedjack CSDN认证博客专家 CSDN认证企业博客

码龄7年

IP 属地：广东省

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

1: 原创

98万+: 周排名

53万+: 总排名

1061: 访问

: 等级

29: 积分

0: 粉丝

0: 获赞

3: 评论

1: 收藏

私信

关注

热门文章

关于DQN中的疑惑 1061

分类专栏

提问

最新评论

关于DQN中的疑惑
m0_57218644: 因为并不是每个状态都有reward。就比如吃到金币才有奖励，而在吃到金币之前的状态reward都是0，但是这些状态的Q训练之后不是0，而reward还是0。所以吃到金币之前我们还是要用Q来指导策略往哪里走，reward并不能。
关于DQN中的疑惑
Jerry9968: 这个问题太困扰我了，为什么reward设置的一点点改变都会导致dqn算法的失败
关于DQN中的疑惑
weixin_41694724: reward是神经网络Q的目标

最新文章

关于DQN中的疑惑

提示

确定要删除当前文章？

取消删除