深度强化学习的基本概念

最新推荐文章于 2023-04-15 12:53:48 发布

Catherine_he_ye

最新推荐文章于 2023-04-15 12:53:48 发布

阅读量502

点赞数 1

分类专栏： RL 文章标签：强化学习深度学习

本文链接：https://blog.csdn.net/Catherine_he_ye/article/details/119356698

版权

RL 专栏收录该内容

7 篇文章 3 订阅

订阅专栏

深度强化学习的基本概念

王树森的B站深度强化学习视频
First: 2021.8.4
Second: 2022.1.10

No.0 前提知识（概率论）

随机变量X, 观测值x
1.离散型随机变量：观测值为有限个或者无限可列个（整数集是典型的无限可列）
2.连续型随机变量：观测值为无限不可列个（实数集是典型的无限不可列）

辨析一下概率分布函数、概率密度函数
概率分布函数：
-离散概率分布：二项分布几何分布泊松分布
（离散型随机变量的概率函数、概率分布、分布函数）
-连续型概率分布：指数分布正态分布

连续型的随机变量取值在任意一点的概率都是0(即概率 $P_{x=a}=0$ ，但并不代表 $x = a$ 是不可能事件)。所以我认为这便是离散型随机变量有概率函数的原因而连续型随机变量没有概率函数（因为都是0呀）而有个名字叫概率密度函数的东东的原因。
附上一个知乎上理解概率密度函数的链接
概率密度函数PDF：连续型随机变量在某个确定的取值点附近的可能性

其实 概率密度函数值 即为概率在该点的变化率.
千万不要误认为：概率密度函数值是该点的概率.
可类比一下：速度(概率密度)和距离(概率)

最常见的连续型概率分布是正态分布，也称为高斯分布。它的概率密度函数为： $f(x)=\frac1{\sqrt {2\pi}\sigma}e^{-\frac{(x-\mu)^{2}}{2\sigma^{2}}}$

期望：
连续分布： $E[f(x)]=\int_xp(x)·f(x)dx$
离散分布： $E[f(x)]=\sum_{x∈X}p(x)·f(x)$

随机抽样

Terminology（术语）in RL

No.1 state and action 状态和动作

state：状态，
action：动作，
Agent（智能体）：动作的发起者.

No.2 policy 策略

记为π函数
policy：根据观测到的状态做出的决策来控制agent运动
数学上，policy的π函数定义为一个概率密度函数。
policy function π：(s,a)➡[0,1]: π(a|s)=P(A=a|S=s).
动作一般根据policy函数随机抽样得到，具有随机性。

No.3 reward 奖励 & return 回报

reward R：自定义，
强化学习的目标：获得的奖励/回报尽量要高。
区分：Return（aka cumulative future reward）
t时刻的Return记作：U_t=R_t+R_t+1+R_t+2+R_t+3+…
考虑一种情况：未来的奖励没有现在的奖励“值钱”，所以就有了Discounted return（折扣回报）（aka cumulative discounted future reward）
γ：discount rate（tuning hyper-parameter).
U_t=R_t+γR_t+1+γ²R_t+2+γ³R_t+3+…

No.4 state transition 状态转移

old state➡new state
State transition can be random.
Randomness is from the environment.
P(s’|s,a)=P(S’=s’|S=s,A=a).
状态转移函数是未知的。

No.5 agent environment interaction

在这里插入图片描述 Randomness in Reinforcement Learning：

Actions can be random.
New state can be random.

No.6 Action-Value Function 动作价值函数 Q_π(s,a) & Optimal Action-Value Function 最优动作价值函数 Q^*(s,a)

U_t未知，是一个随机变量，depends on actions A_t,A_t+1,A_t+2,… and states S_t,S_t+1,S_t+2,…;

U_t未知，s_t和a_t为变量，且已知他俩的概率密度函数，我们则能用求期望的方法表示Q_π而不需要求得U_t。
Q_π的直观意义：已知policy函数 π，Q_π便会给在s_t这一状态下做所有的动作a_t打分，那么我们就知道什么动作好，什么动作不好。

如何将Q_π中的π去掉？
对Q_π关于π做最大化，对于无数种policy函数π，我们应该使用最好的那一种policy函数，最好的定义就是让Q_π最大化的那个π，得到的函数称为**Q^*(s_t,a_t)**Optimal action-value function 最优动作价值函数，Q^*与policy 函数π无关。

Q^*的直观意义：可用来对动作a_t做评价，已知当前状态s_t，Q^*可以告诉我们动作a_t好不好，举个例子，下围棋时，当前状态就是这个棋盘，Q*告诉我们如果你把棋子放在这个位置的胜算有多大，如果放在那个位置胜算有多大。

No.7 State-Value Function 状态价值函数 V(s)

V_π(s_t):State-Value Function 状态价值函数
Q_π与动作A、状态s_t都有关，可以把A作为随机变量然后求期望把A消掉，得到
V_π(s_t)=E_A[Q_π(s_t,A)]，只与π和s有关，

V_π(s_t)的直观意义：可以告诉我们当前的局势好不好，举个例子，加入我们用policy函数π来下围棋， V_π看下棋盘就会告诉我们当前的胜算有多大

又A~π(·|s_t)，
when actions are discrete：
期望便可写成连加，则 V_π(s_t)=E_A[Q_π(s_t,A)]=Σ_aπ(a|s_t)·Q_π(s_t,a)；
when actions are continuous：
期望便可写成积分，则 V_π(s_t)=E_A[Q_π(s_t,A)]=∫π(a|s_t)·Q_π(s_t,a)da。

在这里插入图片描述

Catherine_he_ye

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
深度强化学习的基本概念

Terminology（术语）in RL王树森的B站强化学习视频No.1 state and action 状态和动作state：状态，action：动作，Agent（智能体）：动作的发起者.No.2 policy 策略记为π函数policy：根据观测到的状态做出的决策来控制agent运动数学上，policy的π函数定义为概率密度函数。policy function π：(s,a)➡[0,1]: π(a|s)=P(A=a|S=s).No.3 reward 奖励 & re
复制链接

扫一扫