notes1-- 深度强化学习入门到熟练（Shusen Wang）

最新推荐文章于 2022-12-12 17:55:48 发布

sinat_38316070

最新推荐文章于 2022-12-12 17:55:48 发布

阅读量385

点赞数

分类专栏： DRL

本文链接：https://blog.csdn.net/sinat_38316070/article/details/105068353

版权

DRL 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

 个人觉得讲的蛮好的入门资料，用笔记总结一下。

基本概念

（1）随机变量 Random Variable
大写字母：随机变量小写字母：观测值
在这里插入图片描述
(2) Randomness in RL:

Actions have randomness.
States transitions have randomness.
在这里插入图片描述（3）Return
Return $U_{t}$ : cumulative future reward
Given $s_{t}$ , the return $U_{t}$ 依赖于随机变量 $A_{t}$ … and $S_{t+1}$ …

（4）Value Functions
把 $U_{t}$ 当作未来所有动作a和状态s的函数，动作a和状态s都有随机性
-动作a的概率密度函数是policy function $\pi(a|s)$
-状态s是状态转移函数State transition function $p (s^{'} ∣ s, a)$

Action Value Function
对 $U_{t}$ 求期望，将随机性用积分积掉（除了 $s_{t}$ 和 $a_{t}$ 其余随机变量都被积掉），得到动作-价值函数

动作-价值函数 $Q_{\pi}(s_{t},a_{t})$ 依赖于 $s_{t}$ 和 $a_{t}$ ，还与policy函数 $\pi$ 有关。不同的policy函数 $\pi$ 会有不同的 $Q_{\pi}$ 。
直观意义是：如果用policy函数 $\pi$ ，在状态 $s_{t}$ 下做动作 $a_{t}$ 是好还是坏。已知policy函数 $\pi$ , $Q_{\pi}(s_{t},a_{t})$ 会给当前状态下所有action打分。
在这里插入图片描述

Optimal action-value function $Q^{*}(s_{t},a_{t})$
把 $\pi$ 去掉的方法： $Q_{\pi}(s_{t},a_{t})$ 最大化，取得使 $Q_{\pi}(s_{t},a_{t})$ 最大化的 $\pi$
$Q^{*}(s_{t},a_{t})$ 与policy $\pi$ 无关，在状态 $s_{t}$ 的情况下，对动作 $a_{t}$ 作评价
State-Value Function $V (s)$

在这里插入图片描述
状态价值函数 $V (s)$ 是对 $Q_{\pi}(s_{t},a_{t})$ 求期望，A作为随机变量，对A求期望，把A消掉得到 $V_{\pi}(s_{t})$ ，只与 $\pi$ 和 $s_{t}$ 有关。
$V_{\pi}(s_{t})$ 的直观意义：用于评价当前局势好坏。
对A求期望，A的概率密度是 $\pi( \cdot |s_{t})$ ，根据期望的定义，可以把期望写成连加（动作离散）或积分（动作连续）的形式。
在这里插入图片描述小结：
（5）How does AI control the agent：
Two methods:
Policy-Based Learning 策略学习 v.s. Value-Based Learning价值学习

Summary

[1] https://www.bilibili.com/video/BV1BE411W7TA?t=864

sinat_38316070

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
notes1-- 深度强化学习入门到熟练（Shusen Wang）

个人觉得讲的蛮好的入门资料，用笔记总结一下。基本概念（1）随机变量 Random Variable大写字母：随机变量小写字母：观测值(2) Randomness in RL:Actions have randomness.States transitions have randomness.（3）ReturnReturn UtU_{t}Ut: cumulative...
复制链接

扫一扫