notes1-- 深度强化学习入门到熟练(Shusen Wang)

 个人觉得讲的蛮好的入门资料,用笔记总结一下。

基本概念

(1)随机变量 Random Variable
大写字母:随机变量 小写字母:观测值
在这里插入图片描述
(2) Randomness in RL:

Actions have randomness.
States transitions have randomness.
在这里插入图片描述(3)Return
Return U t U_{t} Ut: cumulative future reward
在这里插入图片描述在这里插入图片描述Given s t s_{t} st, the return U t U_{t} Ut依赖于随机变量 A t A_{t} At … and S t + 1 S_{t+1} St+1

(4)Value Functions
U t U_{t} Ut 当作未来所有动作a和状态s的函数,动作a和状态s都有随机性
-动作a的概率密度函数是policy function π ( a ∣ s ) \pi(a|s) π(as)
-状态s是状态转移函数State transition function p ( s ′ ∣ s , a ) p(s'|s,a) p(ss,a)

  • Action Value Function
    U t U_{t} Ut 求期望,将随机性用积分积掉(除了 s t s_{t} st a t a_{t} at 其余随机变量都被积掉),得到动作-价值函数

动作-价值函数 Q π ( s t , a t ) Q_{\pi}(s_{t},a_{t}) Qπ(st,at)依赖于 s t s_{t} st a t a_{t} at,还与policy函数 π \pi π有关。不同的policy函数 π \pi π会有不同的 Q π Q_{\pi} Qπ
直观意义是:如果用policy函数 π \pi π, 在状态 s t s_{t} st下做动作 a t a_{t} at是好还是坏。已知policy函数 π \pi π, Q π ( s t , a t ) Q_{\pi}(s_{t},a_{t}) Qπ(st,at)会给当前状态下所有action打分。
在这里插入图片描述

  • Optimal action-value function Q ∗ ( s t , a t ) Q^{*}(s_{t},a_{t}) Q(st,at)
    π \pi π去掉的方法: Q π ( s t , a t ) Q_{\pi}(s_{t},a_{t}) Qπ(st,at)最大化,取得使 Q π ( s t , a t ) Q_{\pi}(s_{t},a_{t}) Qπ(st,at)最大化的 π \pi π
    Q ∗ ( s t , a t ) Q^{*}(s_{t},a_{t}) Q(st,at)与policy π \pi π无关,在状态 s t s_{t} st的情况下,对动作 a t a_{t} at作评价
    在这里插入图片描述
  • State-Value Function V ( s ) V(s) V(s)

在这里插入图片描述
状态价值函数 V ( s ) V(s) V(s)是对 Q π ( s t , a t ) Q_{\pi}(s_{t},a_{t}) Qπ(st,at)求期望,A作为随机变量,对A求期望,把A消掉得到 V π ( s t ) V_{\pi}(s_{t}) Vπ(st),只与 π \pi π s t s_{t} st有关。
V π ( s t ) V_{\pi}(s_{t}) Vπ(st)的直观意义:用于评价当前局势好坏。
在这里插入图片描述对A求期望,A的概率密度是 π ( ⋅ ∣ s t ) \pi( \cdot |s_{t}) π(st),根据期望的定义,可以把期望写成连加(动作离散)或积分(动作连续)的形式。
在这里插入图片描述小结:
在这里插入图片描述(5)How does AI control the agent:
Two methods:
Policy-Based Learning 策略学习 v.s. Value-Based Learning价值学习
在这里插入图片描述

  • Summary
    在这里插入图片描述

    [1] https://www.bilibili.com/video/BV1BE411W7TA?t=864

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值