
机器学习
文章平均质量分 95
子不语zZ
这个作者很懒,什么都没留下…
展开
-
一文搞懂策略梯度(Policy gradient)算法(二)
在上文中,我们主要介绍了PG算法的目标函数以及策略梯度。可知,在PG算法中,用∇Jθt的近似来更新策略网络参数θ,从而增大目标函数。在策略梯度计算公式的最后推导中,我们得到策略梯度∇Jθt的无偏估计同时,留下了一个尾巴——如何得到动作价值函数Qπ?为了解决这个问题,本文将分别介绍算法和算法,并进一步得到改进版的带基线的策略梯度算法,即以及。原创 2024-04-22 15:36:21 · 2262 阅读 · 0 评论 -
一文搞懂策略梯度(Policy gradient)算法(一)
在强化学习的过程中,从 Sarsa 到 Q-learning 再到 DQN,本质上都是值函数近似算法。值函数近似算法都是先学习动作价值函数,然后根据估计的动作价值函数选择动作。例如,DQN的神经网络结构可以表示为如下图所示:图中,输入是状态s,输出是每个动作的Q值,即对每个动作的评分,分数越高意味着动作越好。通过对值函数的近似,我们可以知道回报最大的路径,从而指导智能体进行动作的选取。但是,。那么有没有一种可能,我们可以跳过动作价值的评估环节,直接从输入状态,到输出策略呢?原创 2024-04-16 15:25:52 · 11739 阅读 · 0 评论 -
一文搞懂DQN
给出文中DQN完整伪代码:给出算法流程框图:本文仅仅讨论算法原理,并不涉及代码复现,目前网上相关代码学习挺多,可以移步这里参考~原创 2024-04-12 17:36:44 · 3330 阅读 · 0 评论 -
贝尔曼(Bellman)方程
关于贝尔曼公式的一些粗浅学习原创 2024-04-08 10:18:38 · 1505 阅读 · 0 评论