完整代码链接
写了个Q学习小车上山,感觉不行。把Q表画出来,找找原因。
...
# q learning update
# 其中q是q表,o是离散化的观察(400-900个值),a是三个动作,r是奖励,d是done
# 1-d的意思是,如果done了,就不用后来的q表更新上一步q值
q[o][a]=q[o][a]+alpha*(r+(1-d)*gamma*max(q[o1])
完整代码链接
写了个Q学习小车上山,感觉不行。把Q表画出来,找找原因。
...
# q learning update
# 其中q是q表,o是离散化的观察(400-900个值),a是三个动作,r是奖励,d是done
# 1-d的意思是,如果done了,就不用后来的q表更新上一步q值
q[o][a]=q[o][a]+alpha*(r+(1-d)*gamma*max(q[o1])