DRL
sinat_38316070
这个作者很懒,什么都没留下…
展开
-
notes4-- 深度强化学习入门到熟练(Shusen Wang)
Actor-Critic Methods固定S,更新策略网络的θ\thetaθ,使得V的平均值增加。策略网络π\piπ相当于体操运动员,裁判相当于价值网络q,运动员努力提高技术使得裁判打分更高,裁判打的分数就是监督信号,运动员靠裁判打的分数提高自己技术。更新价值网络的w,是为了让q的打分更精准。裁判相当于价值网络q, 一开始是随机初始化,裁判没有判断能力。裁判会逐渐改变自己的水平,使自...原创 2020-03-24 21:12:21 · 182 阅读 · 0 评论 -
notes3-- 深度强化学习入门到熟练(Shusen Wang)
Policy-Based RL用神经网络近似策略函数π\piπ回顾 State-Value Function Approximation使用策略网络π(a∣st;θ)\pi(a|s_{t};\theta)π(a∣st;θ)代替策略函数π(a∣st)\pi(a|s_{t})π(a∣st)对SSS求期望,消去SSS,只有θ\thetaθ策略网络越好,J(θ)J(\theta)J(θ)...原创 2020-03-24 19:31:55 · 245 阅读 · 0 评论 -
notes2-- 深度强化学习入门到熟练(Shusen Wang)
Value-based Learning 价值学习回顾Deep Q network (DQN)使用神经网络近似Q∗Q^{*}Q∗ 函数 Approximate the Q FuncitionDQN in Super MarioTemporal difference(TD)TD learning for DQN Summary...原创 2020-03-24 18:04:05 · 801 阅读 · 0 评论 -
notes1-- 深度强化学习入门到熟练(Shusen Wang)
个人觉得讲的蛮好的入门资料,用笔记总结一下。基本概念(1)随机变量 Random Variable大写字母:随机变量 小写字母:观测值(2) Randomness in RL:Actions have randomness.States transitions have randomness.(3)ReturnReturn UtU_{t}Ut: cumulative...原创 2020-03-24 13:58:37 · 414 阅读 · 0 评论 -
深度强化学习中的奖励稀疏问题
DRL Lecture 7 – Sparse Reward – notes – Hung-yi Lee深度强化学习中的奖励稀疏To solve sparse reward problems, three directions:1. Reward Shaping环境有真正的reward,但自己设计额外的rewardEx: for a child:Take “Play”, rt+1...原创 2020-03-24 11:40:19 · 1436 阅读 · 0 评论