强化学习笔记

最新推荐文章于 2023-12-16 21:57:26 发布

没有名字的小小怪物

最新推荐文章于 2023-12-16 21:57:26 发布

阅读量159

点赞数 1

分类专栏：强化学习文章标签：机器学习深度学习神经网络

本文链接：https://blog.csdn.net/qq_40538205/article/details/120267633

版权

强化学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Reinforcement Learning
基础概念：

状态(s)：State
动作(a)： Action
策略(π)： Policy ------一种函数，从当前状态选择一种动作
奖励®： Reward
状态更新：state transition ------从当前状态，采取相应动作，按照一定的状态更新得到下一个状态，这里的状态是整个环境的状态，而不仅仅是Agent

如上图所示，Agent 采取动作a，从环境处得到下一个状态S和奖励R

回报(Return)：cumulative future reward–未来累计奖励
U_t= R_t + γR_t+1 +γ²R_t+2+…;其中γ是自己定义的一个变量在[0,1]之间；同时Ut是随机变量
Action-Value Function : Q(s,a)
Q_π(s,a) = E[U(t)|S(t) = t,A(t) = a] ----表示在采用策略π时，在当前状态s下，给动作a的打分。
Optimal Action-Value Function:Q*(s,a)
Q*(s,a) = max_π[Q_π(s,a)] —当前状态s下，给动作a的打分，和上面相比较，这里不依赖与策略函数π
State-Value Function : V_π(s)
离散：V_π(s) = E_A[Q_π(s,A)] = ∑_aπ(a|s_t)Q_π(s,a)
连续：V_π(s) = E_A[Q_π(s,A)] =∫ π(a|s_t)Q_π(s,a)da —可以指出当前状态的好坏。
E_π[V_π(s)] 越大，说明策略π越好

如何用？

假设我们有π(a|s)，则我们可以根据当前的状态s_t利用策略π计算出所有动作的概率，作简单随机抽样，选择动作。----策略学习
假设我们有Q*(s,a)，则我们可以根据当前状态，对所有动作做出评价，选择评价最高的作为本次采取的动作。----价值学习

Deep-Q-Network : DQN

原理：使用神经网络近似Q*(s,a) : Q(s,a,w) ≈ Q*(s,a)

问题：如何训练DQN？–Temporal Difference(TD) Learning
U_t = R_t +γ·U_t+1 ----根据U_t定义得到
用 Q(s_t,a_t,w) 估计 E[U_t]；
用 Q(s_t+1,a_t+1,w) 估计 E[U_t+1]
故 Q(s_t,a_t,w) ≈ E[R_t + γ·Q(s_t+1,a_t+1,w)]
Prediction : Q(s_t,a_t,w)
TD target : y_t = r_t + γ·Q(s_t+1,a_t+1,w) = r_t + γ·max_a{Q(s_t+1,a_t+1,w)}
Loss : L_t = 1/2 ·[Q(s_t,a_t,w)-y_t]²
Update : w_t+1 = w_t - α ·(∂L_t/∂w) -----α是学习率

TD error的一个形象解释列子：
现在你要从北京去上海，在北京时，你现在有一个软件给出了你需要20h才能到达上海，现在你出发了。走了5h到了西安，你的软件又给出现在还需要13h才能到达上海。
思考1：那么现在想一想，基于这次的数据，你从北京到上海需要18h，相比于20h，现在的18h更可信，为什么呢？因为这18h中，有5h是你实际花费的时间。故我们的目标是使得前后两次预测的结果一致。我们可以根据20h和18h来更新软件
思考2：根据前后两次预测值20h，13h，我们可以计算出北京到西安的软件预测时间是8h，但是我们实际上只花费了5h，所以我们可以根据预测值8h和实际值5h来更新软件，
虽然上述思考是两者不同的方式，但其实结论是一致的。

Policy-Based Reinforcement Learning
原理：使用神经网络代替策略函数：π(a|s_t;θ) 代替 π(a|s_t)
离散：V_π(s) = E_A[Q_π(s,A)] = ∑_aπ(a|s_t)Q_π(s,a)
连续：V_π(s) = E_A[Q_π(s,A)] =∫ π(a|s_t)Q_π(s,a)da —可以指出当前状态的好坏。

V(s_t,θ) = ∑_aπ(a|s_t;θ)Q_π(s,a)

目标：通过学习θ，使得J(θ) = E_s[V(s;θ)]最大化
更新策略：θ = θ + β·(∂V(s;θ)/∂θ)
∂V(s;θ)/∂θ = ∂(∑_aπ(a|s;θ)Q_π(s,a))/∂θ = ∑_a[ ∂(π(a|s;θ))/∂θ ·Q_π(s,a) ]
上式 = ∑_a[ π(a|s;θ) * ∂(logπ(a|s;θ))/∂θ ·Q_π(s,a)]
上式 =E_A[∂(logπ(A|s;θ))/∂θ ·Q_π(s,A)]
令g(a’,θ) = ∂(logπ(a’|s;θ))/∂θ ·Q_π(s,a’);
显然：E_A[g(A,θ)] = ∂V(s;θ)/∂θ,又因为a’根据概率密度π(a|s;θ)随机抽样得到，故g(a’,θ)是∂V(s;θ)/∂θ的无偏估计，可以用g(a’,θ)来代替。

算法流程：
①得到: s_t;
②利用π(.|s_t，θ)得到a_t;
③计算: q_t；
④计算: d_θ,t=∂(logπ(a’|s;θ))/∂θ;
⑤计算： g(a,θ) = q_t·d_θ,t;
⑥更新： θ_t+1=θ_t + β·g(a,θ)

待解决问题–第三步计算q_t：
方法一：Reinforcement: 利用神经网络完成一局，记录轨迹,计算q_t = U_t；
方法二：利用另一个神经网络来近似Q_π，计算q_t = Q_π；见下；

训练：更新θ;w
目标：θ参数更新的目标是使得V(s;θ;w)变大；w参数的更新目标是更好的估计return；
训练过程：当前状态s_t----π(a|s;θ)----->a_t -------->得到s_t+1，r_t，q_t----利用策略网络π计算a‘(不执行只是为了计算q_t+1)---->得到q_t+1------>σ_t = q_t-(r_t+γ·q_t+1)----计算σ(t)的梯度---->更新w ----计算d_θ,t = ∂(logπ(a’|s;θ))/∂θ---->更新θ

其中w_t+1 = w_t - α ·(∂σ_t/∂w) ; θ_t+1=θ_t + β·q_t*d_θ,t

价值网络更新 ----TD
①：计算q_t，q_t+1
②：TD target：y_t = r_t + γ·q_t+1
③： Loss: L(w) = 1/2·(q_t-y_t)²
④： Update：w_t+1 = w_t-α·∂L(w)/∂w

策略网络更新 —Policy Gradient
①：利用网络得到动作a（随机抽样）
②g(a,θ) = q_t·∂(logπ(a|s;θ))/∂θ;
③：θ_t+1=θ_t + β·g(a,θ)；

结构图

Q-Learning —学习Q*
Q_π(s_t,a_t) ≈ E[R_t + γ·Q_π(S_t+1,A_t+1)]
Q_π*(s_t,a_t) ≈ E[R_t + γ·Q_π*(S_t+1,A_t+1)]
Q*(s_t,a_t) ≈ E[R_t + γ·Q*(S_t+1,A_t+1)]
其中：A_t+1 = argmax_aQ*(S_t+1,a) ; Q*(S_t+1,A_t+1) = max_aQ*(S_t+1,a)
故 Q*(s_t,a_t) = E[R_t + γ·max_a Q*(S_t+1,a)] ≈ r_t + γ·max_a Q*(S_t+1,a) ----TD target :y_t

训练：①表格（略）；②神经网络
使用神经网络Q(s,a,w)代替Q*(s,a),输入状态s，输出所有动作的分数，a_t为得分最高的动作，执行该动作，得到s_t+1和r_t，计算TD target：y_t = r_t + γ· max_aQ(s_t+1,a;w);计算TD error：σ_t = Q(s_t,a_t;w) - y_t;更新w：w_t+1 = w_t - α ·σ_t ·∂Q(s_t,a_t;w)/∂w

Sarasa ----学习Q_π
U_t = R_t + γ·U_t+1
Q_π(s_t,a_t) = E[U_t|s_t,a_t] = E[R_t + γ·U_t+1|s_t,a_t] = E[R_t] +γ·[E[Q_π(S_t+1,A_t+1)]] = E[R_t +γ·Q_π(S_t+1,A_t+1)] ≈ r_t+ γ·Q_π(s_t+1,_t+1)
目标：Q_π(s_t,a_t) 趋近于y_t = r_t + γ·Q_π(s_t+1,_t+1)
训练：①表格；②神经网络
使用神经网络代替Q_π,更新即可

Multi-step TD target

U_t = ∑_i=0^m-1·(γⁱ R_t+i ) + γ^m·U_t+m

m-step TD target for QL:
y_t = ∑_i=0^m-1·(γⁱ r_t+i ) + γ^m·max_aQ*(s_t+m，a）

m-step TD target for Sarsa:
y_t = ∑_i=0^m-1·(γⁱ r_t+i ) + γ^m·Q_π(s_t+m，a_t+m)

经验回放：

经验：all of the transition:(s_t,a_t,r_t,s_t+1)
优点：经验重复利用，同时可以消除数据间的相关性。
设置一个大小为n(通常非常大)的replay buffer 存放最新的n条transition。
步骤：每次随机从replay buffer 中抽取一个transition：(s_t,a_t,r_t,s_t+1) ，计算TD error 和梯度，更新网络参数；（这里也会一次取多个，计算平均梯度，进行更新）

改进：用非随机抽样代替随机抽样，选取重要的transition；即TD error大的，优先选取。这里需要对transition改进，增加一维存放TD error；不同的抽样概率对应不同的学习率，即α = α(nP_t)^-β ----P_t 是抽样概率，β在[0,1]

解决高估问题？

①Target Network
使用Q(s,a;w) 来求(s_t,a_t,r_t,s_t+1)
使用Q(s,a;w’) 来计算y_t = r_t+γ· max_aQ(S_t+1,a;w’)
TD error: δ_t = Q(s_t,a_t,w) - y_t ;
w update: w = w - α ·δ_t· (∂Q(s_t,a_t,w)/∂w) ;
w’ update: w’ 间隔一定时间等于w；或者w’ = τw +(1-τ)w’ τ在(0,1)
②Double DQN
使用Q(s,a;w) 来求(s_t,a_t,r_t,s_t+1)
使用Q(s,a;w) 来计算a* = argmax_a{Q(S_t+1,a;w)}
使用Q(s,a;w’) 来计算y_t = r_t+ γ· Q(S_t+1,a*;w’)
TD error: δ_t = Q(s_t,a_t,w) - y_t ;
w update: w = w - α ·δ_t (∂Q(s_t,a_t,w)/∂w) ;
w’ update: w’ 间隔一定时间等于w；或者w’ = τw +(1-τ)w’ τ在(0,1)

Dueling Network

Q*(s,a) = max_π{Q_π(s,a)} —评估动作a的好坏；
V*(s) = max_π{V_π(s)} —评估状态s的好坏
Optimal advantage function : A*(s,a) = Q*(s,a)-V*(s) -----①
定理：V*(s) = max_a{Q*(s,a) } ; 故 max_a{A*(s,a)} = 0；
对①处理： Q*(s,a) = A*(s,a) + V*(s) - max_a{A*(s,a)}
使用2个神经网络分别近似上述2个函数：
A(s,a;w^A) 近似A*(s,a)
V(s;w^V) 近似V*(s)
记Q(s,a;w) = A(s,a;w^A) + V(s;w^V) - max_a{ A(s,a;w^A)}，就是要注意这里的w是w^A和w^V
训练过程和DQN一模一样，见前面

策略梯度（神经网络π(s;θ)来近似策略函数）—Baseline应用

∂V_π(s)/∂θ = E_A{∂(logπ(A|s;θ))/∂θ ·Q_π(s,A)}
Baseline指的是一个不依赖动作A的一个函数；
性质：E_A{∂(logπ(A|s;θ))/∂θ ·b} = 0；
∂V_π(s)/∂θ = E_A{∂(logπ(A|s;θ))/∂θ ·Q_π(s,A)} - E_A{∂(logπ(A|s;θ))/∂θ ·b} =
= E_A{∂(logπ(A|s;θ))/∂θ ·(Q_π(s,A) - b)}
记g(A_T) = ∂(logπ(A|s;θ))/∂θ ·(Q_π(s,A) - b)
随机抽样a_t服从π(.|s_t;θ),计算得到g(a_t),是策略梯度的无偏估计。可以使用g(a_t)代替策略梯度。其中计算g(a_t)时的b可以选择0或V_π(S_t)，下面选择V_π(S_t)，
g(a_t) = ∂(logπ(a_t|s_t;θ))/∂θ * ( Q_π(s_t,a_t) - V_π(S_t) )
其中：Q_π(s_t,a_t) 可以用u_t来近似；V_π(S_t) 用神经网络v(s,w)来近似
update：θ = θ + β ·g(a_t);
update：记σ_t = v(s_t,w) - u_t ；更新 w = w - α· (∂v(s,w)/∂w)· σ_t
算法流程：
①得到一条轨迹，s₁,a₁,r₁,s₂,a₂,r₂,…
②计算出u_t，σ_t，g(a_t)
③更新θ，w

在Actor-Critic中应用Baseline------A2C

使用两个神经网络近似策略网络和价值网络；π(a|s;θ) 近似策略网络，v(s;w) 近似V_π(s)
训练过程：
①通过策略网络得到(s_t,a_t,r_t,s_t+1)
②TD target: y_t = r_t + γ· v(s_t+1;w)
③TD error: σ(t) = v(s_t;w) - y_t
④Update：θ = θ - β· σ(t) ·∂(logπ(a_t|s_t;θ))/∂θ
⑤Update：w = w - α· (∂v(s,w)/∂w) ·σ_t

multi-step 基本同上，在①会得到m个{(s_t+i,a_t+i,r_t+i,s_t+i+1)} i属于[0,m-1]，在②计算y_t = ∑_i=0{γⁱr_t+i} + γ^mv(s_t+m;w)，其他相同

Deterministic Policy Gradient-------- DPG -------确定性策略梯度

如上图，DPG有两个网络，分别是策略网络和价值网络，策略网络根据当前状态得到当前动作a，(这里的动作a是多维的，维度对应自由度)，价值网络在根据当前状态和动作对当前动作进行打分。

使用确定性策略网络π(s;θ)----actor;
使用价值网络q(s,a;w) ----critic
价值网络参数的更新：
首先根据(s_t,a_t,r_t,s_t+1) ,a’_t+1，计算出q_t=q(s_t,a_t;w), q_t+1 = q(s_t+1,a’_t+1w)
计算出TD error： σ(t) = q_t - ( r_t + γ·q_t+1);
更新w： w = w - α · σ(t) · (∂q(s_t,a_t;w)/∂w)
策略网络参数更新：
DPG： g = ∂q(s,π(s;θ);w)/∂θ= ∂a/∂θ ·∂q(s,a,w)/∂a
更新θ： θ=θ - β·g

上述的训练效果不是很理想；可以有以下改进：

①：使用 Target Network ：新增两个网络：q(s,a；w^-)和π(s;θ^-)
其中： a’_t+1 = π(s_t+1;θ^-); q_t+1 = q(s_t+1,a’_t+1;w^-);替换上面的对应值；
w^-和θ^-更新：w^- = τ·w + (1-τ)·w^-; θ^- = τ·θ + (1-τ)·θ^-; τ在(0,1)

②经验回放
③多步TD

随机策略梯度

思想：策略π服从一定均值u，方差σ的正态分布，我们用神经网络近似均值方差，在根据正态分布随机获取当前状态下的动作a；
假设自由度为d，则动作a也是d维的
我们用神经网络u(s,θ^u)来代替u(s), 神经网络p(s;θ^p)来代替p(s) ;其中的p(s) = lnσ²(s);

流程：根据状态s，分别计算出u，p，就可以根据正态分布计算出动作a

训练： ∂V_π(s)/∂θ = E_A{∂(lnπ(A|s;θ))/∂θ ·Q_π(s,A)}
从上式我们可以知道，其实我们不需要具体的策略π，因为在计算动作a时，只是根据均值，方差在随机抽样，而现在更新的时候也是只需要策略的对数值，故

在这里插入图片描述

建立辅助神经网络f：其中的θ 是θ^p，θ^u组成

g(a) = ∂(lnπ(a|s;θ))/∂θ ·Q_π(s,a) = ∂(f(s,a;θ))/∂θ ·Q_π(s,a)

更新可以使用：
①reinforce：用u_t代替Q_π(s,a) ，更新：θ = θ + β·∂(f(s,a;θ))/∂θ· u_t
②actor-critic：利用神经网络q(s,a,w)来近似Q_π(s,a)，更新：θ = θ + β·∂(f(s,a;θ))/∂θ·q(s,a,w)，在利用TD target 更新参数w

没有名字的小小怪物

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习笔记

Reinforcement Learning基础概念：状态(s)：State动作(a)： Action策略(π)： Policy ------一种函数，从当前状态选择一种动作奖励®： Reward状态更新：state transition ------从当前状态，采取相应动作，按照一定的状态更新得到下一个状态，这里的状态是整个环境的状态，而不仅仅是Agent#mermaid-svg-vMUhy3hZ3pjBda6c .label{font-family:'trebuchet ms
复制链接

扫一扫

专栏目录