- 博客(4)
- 收藏
- 关注
原创 3、强化学习笔记-策略学习
该方法需要agent玩完一局游戏,观测到所有奖励,然后才能更新策略网络。由于神经网络的复杂性,直接用积分求期望十分复杂,因此使用蒙特卡洛做近似。softmax:输出的都是正数,且加和都为1。使用梯度上升来更新θ。
2023-08-08 22:23:51 20
原创 2、强化学习笔记-价值学习
使用TD算法,必须要有如下所示的等式,等式一侧有一项,另一侧有两项,且两项 中有一项是真实观测到的。TD算法的目标:使TD Error接近于0,使用梯度下降来减少Error。(1)naive的方法:只有完成整个任务才能更新模型。深度强化学习中也有类似公式, rt为真实观测奖励。(2)在任务完成的中间进行模型更新。α:学习率(或步长)
2023-08-06 16:11:45 24
原创 1、强化学习笔记-基本概念
能够去掉动作价值函数中的π:使用最好的策略π,使Qπ最大化。意义:评价当前状态好坏,比如下围棋根据棋盘来判断输赢情况。意义:Q*可以用来评价当前状态下不同动作的好坏。强化学习的目标:学习策略π或者Q*函数。动作价值函数:与具体的策略π有关。我们希望return越大越好。
2023-08-05 22:41:40 27
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人