机器学习与深度学习系列连载：第三部分强化学习（十一) 深度强化学习- Q learning的算法剖析

最新推荐文章于 2023-03-25 09:08:52 发布

人工智能插班生

最新推荐文章于 2023-03-25 09:08:52 发布

阅读量625

点赞数 1

分类专栏：深度学习神经网络强化学习强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dukuku5038/article/details/84811174

版权

深度学习同时被 3 个专栏收录

53 篇文章 9 订阅

订阅专栏

51 篇文章 1 订阅

订阅专栏

18 篇文章 2 订阅

订阅专栏

Q learning的算法剖析

1. Q-learning 算法复习(Review)

Q-learning 是典型的value-based 经典方法。它作为评价者Critic，可以评价actor的表现。

Critic 有如下特点：

评价者Critic不直接决定action
给一个actor的策略π，Critic 评价这个actor的好坏
当使用一个actor的策略π，在状态s后的累计奖励需要被估计 $V_\pi(s)$

(1) 如何去估计 $V_\pi(s)$ ？

MC-based
基于蒙特卡洛的方法是作为一个观察者Critic ，观察策略与环境的互动，一直到一个Episode的结束。

看到 $S_a$ ,
Until the end of the episode, the cumulated reward is ?

看到 $S_b$ ,
Until the end of the episode, the cumulated reward is ??
在这里插入图片描述

TD-based
我们从以前的博客中知道，MC的方法需要等到episode结束后，进行计算，等待时间长（太慢了！），中间变化的方差比较大。TD方法能够从实时reward中估计、

(2) 再说MC和TD

在这里插入图片描述

(3) Q-learning
Q-learning 是一个 State-action value function $Q_\pi(s,a)$
表示的是当在一个actor的策略π中，状态s采取action a后的累计奖励的估计。

在这里插入图片描述

在这里插入图片描述

2. Q-learning 证明

在这里插入图片描述

给出 $Q_\pi(s,a)$ 找到一个新的actor 策略π‘ ，它比π的策略要好
好的定义是：

新策略的选择;

注：新策略π‘不依赖于其他参数，只依赖于Q
但是这个方案不适用于连续的动作

那么，怎么证明新的策略会比以前的好呢？

在这里插入图片描述

2. Q-learning 中的神经网络设计

(1) Target Network

在Q-learning 中目标 $Q_\pi(s_{t+1},a)$ ，我们设定目标Target

在这里插入图片描述

(2) 探索
在基于policy的 Q函数：
在这里插入图片描述

每次都会去餐厅吃喜欢的菜固然不错，但是有可能会错过很多美味。

在这里插入图片描述

于是我们有：

Epsilon Greedy
Boltzmann Exploration

3. Q-learning 中Replay Buffer

往日的记忆是今日的写照，可以指导我们。

从诗意到现实，记忆我们放在buffer中

在每个循环中:

Sample a batch
Update Q- function

在这里插入图片描述

4. Typical Q-Learning Algorithm

在这里插入图片描述

本专栏图片、公式很多来自David Silver主讲的UCL-Course强化学习视频公开课和台湾大学李宏毅老师的深度强化学习课程,在这里，感谢这些经典课程，向他们致敬！

人工智能插班生

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
机器学习与深度学习系列连载：第三部分强化学习（十一) 深度强化学习- Q learning的算法剖析

Q learning的算法剖析
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。