深度强化学习总结(DQN,DDQN,Actor-Critic,DDPG)

学习强化学习总结的笔记,按照自己的理解总结的,还没总结完,边学边总结,可能存在错误欢迎指正

1. Q值和V值

Q值:代表了智能体选择这个动作后,一直到最终状态“奖励总和”的期望;(用于衡量动作)
V值:代表了智能体在“当前状态”下,一直到最终状态的“奖励总和”的期望;(用于衡量状态)

Q值和V值的关系:
Q对V的影响

  1. 基于Q计算V:一个状态的V值,就是这个状态下的所有动作的Q值,在策略下的期望,即 V π ( s ) = ∑ a ∈ A π ( a ∣ s ) ⋅ Q π ( s , a ) V_\pi(s)=\sum_{a\in \mathcal{A}}\pi(a|s)\cdot Q_\pi(s,a) Vπ(s)=aAπ(as)Qπ(s,a)

![V对Q的影响](https://img-blog.csdnimg.cn/direct/63e59a70929645e1a20603d2c4799b3f.png在这里插入图片描述

  1. 基于V计算Q:一个动作的Q值,就是执行这个动作后所有可能状态的V值的均值,即执行动作后,状态的期望。即 Q π ( s , a ) = R s a + γ ∑ s ′ P s s ′ a ⋅ v π ( s ′ ) Q_\pi(s, a)=R_s^a+\gamma \sum_{s'} P_{s s^{\prime}}^a \cdot v_\pi\left(s^{\prime}\right) Qπ(s,a)=Rsa+γsPssavπ(s)
  2. 基于1和2,可以推出V到V的关系为
    在这里插入图片描述

2. 蒙特卡洛(Monte-Carlo, MC)更新公式求V值

我们把智能体放到环境的任意状态 S \mathbf{S} S;从这个状态开始按照策略进行选择动作,并进入新的状态,并一直重复该步骤直到到达最终状态 S e n d \mathbf{S}_{end} Send,并计算这一个序列的累积奖励,记为G
G的定义
显然可以看出, S → S e n d \mathbf{S}\rightarrow \mathbf{S}_{end} SSend有很多种情况(或者理解为路线),因此根据V的定义(智能体在“当前状态”下,一直 “走到” 最终状态的 “奖励总和” 的期望), V s V_{\mathbf{s}} Vs可以表示为 V s = E L { G L } = 1 L ∑ l ∈ L G L V_{\mathbf{s}}=\mathbb{E}_{L}\{G_{L}\} = \frac{1}{L}\sum_{l\in L}G_{L} Vs=EL{ GL}=L1lLGL,L表示总路径的数量(即 S → S e n d \mathbf{S}\rightarrow \mathbf{S}_{end} SSend有多少种可能性)

基于上面阐述的 V s V_{\mathbf{s}} Vs的表示,若已经尝试了N种路线,且N种路线对应的 { G 1 , G 2 , . . . , G N } \{G_1, G_2,...,G_N\} { G1,G2,...,GN}的均值为 V s V_{\mathbf{s}} Vs。若又有一种新的路线尝试了,即 G N + 1 G_{N+1} GN+1,则 V s V_{\mathbf{s}} Vs应该更新为:
V s ← V s + G N + 1 − V s N + 1 V_{\mathbf{s}} \leftarrow V_{\mathbf{s}} + \frac{G_{N+1} - V_{\mathbf{s}}}{N+1} VsVs+N+1GN+1V<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值