【五】强化学习之Sarsa、Qlearing详细讲解----PaddlePaddlle【PARL】框架{飞桨}
课程笔记【强化学习7日打卡营-4】TD更新:会找到能获取reward最大的路径。对应数学公式:下一步Q值更新当前Q值。软更新方式,设置权重a每次更新一点点,类似学习率。这样最后Q值都会逼近目标值。1.Sarsa部分代码: 建立的Q表格初始化Q表格:四列n行提取出状态s的这一行,然后得到最大Q值的下标。当对应Q值存在多个动作时,避免每次都获取第一个动作,np.where从最大q值里随机挑选一个动作。对...
复制链接