机器学习
Mystery_zero
神秘人Zero
展开
-
Policy Optimization-强化学习业界手册
文章目录Deriving the Simplest Policy Gradient1.轨迹的概率 (Probability of a Trajectory)2.对数导数技巧3.轨迹的对数概率4.环境函数的梯度5.轨迹的梯度对数概率综上所述,我们得出以下结论:Implementing the Simplest Policy Gradient1.建立策略网络2.构建损失函数3.运行训练的一个Epoch...翻译 2020-01-21 13:39:23 · 623 阅读 · 0 评论 -
强化学习基础
文章目录强化学习基础概念MP策略π\piπRewardState Value functionState Value Bellman equationState-Action Value functionState-Action Value Bellman equationLook ahead最优值函数Greedyϵ\epsilonϵ-greedysoftmax强化学习算法有模型动态规划无模型基于...原创 2020-01-04 13:56:19 · 303 阅读 · 0 评论