深度强化学习的基本概念

深度强化学习的基本概念

王树森的B站深度强化学习视频
First: 2021.8.4
Second: 2022.1.10

No.0 前提知识(概率论)

随机变量X, 观测值x
1.离散型随机变量:观测值为有限个或者无限可列个(整数集是典型的无限可列)
2.连续型随机变量:观测值为无限不可列个(实数集是典型的无限不可列)

辨析一下概率分布函数、概率密度函数
概率分布函数
-离散概率分布:二项分布 几何分布 泊松分布
(离散型随机变量的概率函数、概率分布、分布函数)
-连续型概率分布:指数分布 正态分布

连续型的随机变量取值在任意一点的概率都是0(即概率 P x = a = 0 P_{x=a}=0 Px=a=0,但并不代表 x = a x=a x=a是不可能事件)。所以我认为这便是离散型随机变量概率函数的原因而连续型随机变量没有概率函数(因为都是0呀)而有个名字叫概率密度函数的东东的原因。
附上一个知乎上理解概率密度函数的链接
概率密度函数PDF连续型随机变量在某个确定的取值点附近的可能性

其实 概率密度函数值 即为 概率在该点的变化率.
千万不要误认为:概率密度函数值是 该点的概率.
可类比一下:速度(概率密度)和距离(概率)

最常见的连续型概率分布是正态分布,也称为高斯分布。它的概率密度函数为: f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f(x)=\frac1{\sqrt {2\pi}\sigma}e^{-\frac{(x-\mu)^{2}}{2\sigma^{2}}} f(x)=2π σ1e2σ2(xμ)2

期望
连续分布: E [ f ( x ) ] = ∫ x p ( x ) ⋅ f ( x ) d x E[f(x)]=\int_xp(x)·f(x)dx E[f(x)]=xp(x)f(x)dx
离散分布: E [ f ( x ) ] = ∑ x ∈ X p ( x ) ⋅ f ( x ) E[f(x)]=\sum_{x∈X}p(x)·f(x) E[f(x)]=xXp(x)f(x)

随机抽样

Terminology(术语)in RL

No.1 state and action 状态和动作

state:状态,
action:动作,
Agent(智能体):动作的发起者.

No.2 policy 策略

记为π函数
policy:根据观测到的状态做出的决策来控制agent运动
数学上,policy的π函数定义为一个概率密度函数
policy function π:(s,a)➡[0,1]: π(a|s)=P(A=a|S=s).
动作一般根据policy函数随机抽样得到,具有随机性。

No.3 reward 奖励 & return 回报

reward R:自定义,
强化学习的目标:获得的奖励/回报尽量要高。
区分Return(aka cumulative future reward
t时刻的Return记作:Ut=Rt+Rt+1+Rt+2+Rt+3+…
考虑一种情况:未来的奖励没有现在的奖励“值钱”,所以就有了Discounted return(折扣回报)(aka cumulative discounted future reward
γ:discount rate(tuning hyper-parameter).
Ut=Rt+γRt+1+γ2Rt+2+γ3Rt+3+…

No.4 state transition 状态转移

old statenew state
State transition can be random.
Randomness is from the environment.
P(s’|s,a)=P(S’=s’|S=s,A=a).
状态转移函数是未知的。

No.5 agent environment interaction

在这里插入图片描述Randomness in Reinforcement Learning

  1. Actions can be random.
  2. New state can be random.

No.6 Action-Value Function 动作价值函数 Qπ(s,a) & Optimal Action-Value Function 最优动作价值函数 Q*(s,a)

Ut未知,是一个随机变量,depends on actions At,At+1,At+2,… and states St,St+1,St+2,…;

Action-Value Function for policy π: 对随机变量Ut求期望,得到一个数Qπ
求期望时,利用policy函数P[A=a|S=s]=π(a|s)P[S’=s’|S=s,A=a]=P(s’|s,a),将 At,At+1,At+2,… 与 St,St+1,St+2,…的随机性用积分积掉。
Qπ(st,at)=E[Ut|St=st,At=at].
Qπ与policy函数 π有关

Ut未知,st和at为变量,且已知他俩的概率密度函数,我们则能用求期望的方法表示Qπ而不需要求得Ut
Qπ直观意义:已知policy函数 π,Qπ便会给在st这一状态下做所有的动作at打分,那么我们就知道什么动作好,什么动作不好。

如何将Qπ中的π去掉?
对Qπ关于π做最大化,对于无数种policy函数π,我们应该使用最好的那一种policy函数,最好的定义就是让Qπ最大化的那个π,得到的函数称为**Q*(st,at)**Optimal action-value function 最优动作价值函数,Q*与policy 函数π无关

Q*直观意义:可用来对动作at做评价,已知当前状态st,Q*可以告诉我们动作at好不好,举个例子,下围棋时,当前状态就是这个棋盘,Q*告诉我们如果你把棋子放在这个位置的胜算有多大,如果放在那个位置胜算有多大。

No.7 State-Value Function 状态价值函数 V(s)

Vπ(st):State-Value Function 状态价值函数
Qπ与动作A、状态st都有关,可以把A作为随机变量然后求期望把A消掉,得到
Vπ(st)=EA[Qπ(st,A)],只与π和s有关,

Vπ(st)的直观意义:可以告诉我们当前的局势好不好,举个例子,加入我们用policy函数π来下围棋, Vπ看下棋盘就会告诉我们当前的胜算有多大

A~π(·|st),
when actions are discrete
期望便可写成连加,则 Vπ(st)=EA[Qπ(st,A)]=Σaπ(a|st)·Qπ(st,a);
when actions are continuous
期望便可写成积分,则 Vπ(st)=EA[Qπ(st,A)]=∫π(a|st)·Qπ(st,a)da

在这里插入图片描述在这里插入图片描述

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值