![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
动手学强化学习
文章平均质量分 86
keep wyd
这个作者很懒,什么都没留下…
展开
-
动手学强化学习-策略梯度&&DQN变种
策略梯度这种学习方式是典型的从交互中学习,并且其优化的目标(即策略期望回报)正是最终所使用策略的性能,这比基于价值的强化学习算法的优化目标(一般是时序差分误差的最小化)要更加直接。REINFORCE 算法是策略梯度乃至强化学习的典型代表,智能体根据当前策略直接和环境交互,通过采样得到的轨迹数据直接计算出策略参数的梯度,进而更新当前策略,使其向最大化策略期望回报的目标靠近。相比于之前的值函数算法,会使用更多的序列进行训练。但是,正是因为使用了蒙特卡洛方法,REINFORCE 算法的梯度估计的。原创 2023-11-20 22:36:13 · 86 阅读 · 1 评论 -
动手学强化学习之强化学习进阶篇:DQN算法总结
如果网络过度学习(过拟合)了某些特定的经验数据(可能是由于这些数据在训练集中出现得过于频繁),它可能会在这些数据上表现得特别好,但在未见过的或不常见的数据上表现得较差。我们也可以看到,在 DQN 的性能得到提升后,它会持续出现一定程度的震荡,这主要是神经网络过拟合到一些局部经验数据后由argmax运算带来的影响。:这里指的是由于神经网络在学习过程中的这种过拟合现象,导致了算法性能的震荡。即算法在某些方面学得很好,但这可能限制了其在更广泛、更一般的情况下的适应性和灵活性。原创 2023-11-20 15:54:34 · 115 阅读 · 1 评论