深度学习
文章平均质量分 91
X在敲AI代码
这个作者很懒,什么都没留下…
展开
-
策略梯度方法
策略梯度算法基于价值和基于策略的算法各有什么优缺点?简单易用:通常只需要学习一个值函数,往往收敛性也会更好。保守更新:更新策略通常是隐式的,通过更新价值函数来间接地改变策略,这使得学习可能更加稳定。受限于离散动作;可能存在多个等价最优策略:当存在多个等效的最优策略时,基于价值的方法可能会在它们之间不停地切换。基于策略的算法的优点有:直接优化策略:由于这些算法直接操作在策略上,所以它们可能更容易找到更好的策略;适用于连续动作空间;更高效的探索:通过调整策略的随机性,基于策略的方法可能会有更高效的探索策略。原创 2024-01-20 23:40:37 · 840 阅读 · 0 评论 -
JoyRL 学习笔记task01-1
( Finite MDP ),即 t(时步) 是有限的,这个上限一般用 T表示,也就是当前交互过程中的最后一个时步或最大步数,从 t=0 和 t=T 这一段时步我们称为一个回合( episode ),比如游戏中的一局。其中 S表示状态空间,即所有状态的集合,A表示动作空间,R 表示奖励函数,P 表示状态转移矩阵,y 表示折扣因子。某个状态的未来不仅与当前状态有关,还历史的状态有关。其中 S表示状态空间,即所有状态的集合,A表示动作空间,R 表示奖励函数,P 表示状态转移矩阵,y 表示折扣因子。原创 2024-01-15 11:18:52 · 894 阅读 · 0 评论