RL
文章平均质量分 87
强化学习学习笔记
伊斯坦布尔的毛兔子
此生唯一自传,如同诗一般
展开
-
强化学习笔记-TRPO(1)基础理论部分
策略梯度算法,是一个强化学习中非常重要的算法,他描述的是πa∣sθ,即,在网络参数为θ时,当状态(环境)为s时候,采取哪种状态a∇θ∇VπsEAπ∇θ∇lnπA∣Sθ∗QπSA)] 存在一个常数b,它不依赖于action AEAπ∇θ∇lnπA∣Sθ∗bb∗EAπ∇θ∇lnπA∣Sθ根据期望的定义b∗a∑πA∣Sθ∗∇θ。原创 2023-07-23 19:23:36 · 85 阅读 · 0 评论 -
强化学习 (1)基本概念和多臂老虎机中探索和利用的平衡
通过数据预测概率分布: 根据数据进行预测-有监督学习,生成数据实例- 无监督学习 都是进行数据分布的预测决策类型环境中采取行动(RL)行动延伸到环境中会产生改变。转换到新的状态随着时间推移,不断的累计奖励这些算法中超参数很多,比如初始概率,个人还是认为设置为1合适一些,这样的话有利于前期进行一些探索。如果这个数值设置为0,5,会对时间衰减影响的结果比较明显。原创 2023-04-17 18:05:06 · 171 阅读 · 0 评论 -
强化学习笔记-TRPO(1)基础理论部分
策略梯度算法,是一个强化学习中非常重要的算法,他描述的是πa∣sθ,即,在网络参数为θ时,当状态(环境)为s时候,采取哪种状态a∇θ∇VπsEAπ∇θ∇lnπA∣Sθ∗QπSA)] 存在一个常数b,它不依赖于action AEAπ∇θ∇lnπA∣Sθ∗bb∗EAπ∇θ∇lnπA∣Sθ根据期望的定义b∗a∑πA∣Sθ∗∇θ。原创 2023-06-08 16:34:30 · 61 阅读 · 0 评论