- 博客(26)
- 收藏
- 关注
原创 [RL]DQN、DDQN、DuelingDQN原理、代码实现
因为有时候我们更新的时候,不一定是更新 Q 表格,而是只更新了 V (s),但更新 V (s) 的时候,只要修改 V (s) 的值,Q 表格的值也会被修改。蓝色的锯齿状的线是 DDQN 的 Q 网络所估测出来的 Q 值,蓝色的无锯齿状的线是真正的Q 值,它们是比较接近的。假设估计噪声为高斯,无偏均值为0,误差可正可负,到此并无大碍,但是接下来的更新时的操作计算TD-target的时候,使用了max操作,这导致在这一步的误差始终为正的,造成正的偏差,这就是导致高估的原因。但是在估计的时候,网络是有误差的。
2024-03-11 16:05:50 1993
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人