强化学习——价值学习

u小鬼

于 2023-08-06 13:08:34 发布

阅读量437

点赞数

分类专栏：机器学习文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_23096319/article/details/132129899

版权

机器学习专栏收录该内容

21 篇文章 11 订阅

订阅专栏

价值学习

首先引入折扣回报的概念， $U_t=R_t+\gamma R_{t+1}+\gamma^2R_{t+2}+...$ ，因此它依赖于action序列 $A_t,A_{t+1},A_{t+2},...$ 以及状态序列 $S_t,S_{t+1},S_{t+2},...$ ，而这两个都是随机变量满足

$P[A=a|S=s]=\pi(a|s),P[S'=s'|S=s,A=a]=p(s'|s,a)$

其实际产生方式都是从分布中采样得到，所以折扣回报也是随机变量。

为了确定化折扣回报，引入其期望，动作价值函数：

$Q_{\pi}(s_t,a_t)=E[U_t|S_t=s_t,A_t=a_t]$

它衡量了出在 $s_t$ 下做出动作 $a_t$ 的回报（收益）。

Deep Q-Network（DQN）

不同的策略对应不同的动作价值函数，可以理解为策略的一种表现形式，最优者定义为 $Q^*(s,a)$ ，据此最优的动作为

$a^*=\mathop{argmax}\limits_{a}Q^*(s,a)$

DQN的想法就是通过一个神经网络 $Q (s, a; w)$ 去拟合这个最优的动作价值函数 $Q^*(s,a)$ 。

训练方法：Temporal Difference (TD) learning

根据折扣回报的定义可以得到 $U_t=R_t+\gamma U_{t+1}$

对上式两边求期望： $E[U_t]=E[R_t+\gamma U_{t+1}]$

DQN的输出 $Q(s_t,a_t;w)$ 和 $Q(s_{t+1},a_{t+1};w)$ 是对 $E[U_t]$ 和 $E[U_{t+1}]$ 的估计，因此

$Q(s_t,a_t;w)\approx r_t+\gamma \cdot Q(s_{t+1},a_{t+1};w)$

其中约等于左边是预测，右边是TD对象，记为 $y_t$

在 $t$ 时刻做出预测 $Q(s_t,a_t;w_t)$ ，TD对象可以这样计算：

$y_t=r_t+\gamma \cdot Q(s_{t+1},a_{t+1};w_t)=r_t+\gamma \cdot \mathop{max}\limits_{a}Q(s_{t+1},a;w_t)$

定义损失为 $L_t=\frac{1}{2}[Q(s_t,a_t;w)-y_t]^2$

用梯度算法更新模型参数： $w_{t+1}=w_t-\alpha\cdot \frac{\partial L_t}{\partial w}|_{w=w_t}$

整个学习流程如下：

观测到状态 $S_t=s_t$ 以及行动 $A_t=a_t$ ；
进行预测： $q_t=Q(s_t,a_t;w)$ ；
对价值网络求导： $d_t=\frac{\partial Q(s_t,a_t;w)}{\partial w}|_{w=w_t}$ ；
环境给出新状态 $s_{t+1}$ 和奖励 $r_t$ ；
计算TD对象： $y_t=r_t+\gamma \cdot \mathop{max}\limits_{a}Q(s_{t+1},a;w_t)$ ；
梯度下降： $w_{t+1}=w_t-\alpha\cdot (q_t-y_t)\cdot d_t$

思考与体会

强化学习和监督学习最大的区别是有没有显式的ground truth可以对训练进行监督。这里DL通过折扣回报关联了前后两个时刻，而且预测未来越短的时间动作序列具有越高的准确率，据此构造了一个隐式的ground truth，在TD算法中是TD对象，对模型参数进行更新。

reference
【王树森】深度强化学习(DRL)：https://www.bilibili.com/video/BV12o4y197US

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
强化学习——价值学习

强化学习和监督学习最大的区别是有没有显式的ground truth可以对训练进行监督。这里DL通过折扣回报关联了前后两个时刻，而且预测未来越短的时间动作序列具有越高的准确率，据此构造了一个隐式的ground truth，在TD算法中是TD对象，对模型参数进行更新。不同的策略对应不同的动作价值函数，可以理解为策略的一种表现形式，最优者定义为。其实际产生方式都是从分布中采样得到，所以折扣回报也是随机变量。其中约等于左边是预测，右边是TD对象，记为。根据折扣回报的定义可以得到。首先引入折扣回报的概念，
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

u小鬼 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。