【强化】Q-learning + AC

Citroooon

已于 2023-07-23 22:31:43 修改

阅读量80

点赞数

文章标签：人工智能

于 2023-07-23 22:07:23 首次发布

本文链接：https://blog.csdn.net/Citroooon/article/details/131884887

版权

Q-learning for continuous actions

$a = argmax_a Q(s,a)$
Q-learning 在处理连续值的时候会比较不方便，传统的做法：
· sample一些离散的action: 无法取到最优
· 用梯度上升法逐次求解：计算量大
都有一些缺点。
我们将网络化为一个标准的形式，将a代入，让优化问题变得简单：
在这里插入图片描述
$\mu$ 像高斯分布的均值， $\Sigma$ 像高斯分布的方差。
为了最大化Q，应该让 $a=\mu(s)$

但是用Qlearning处理连续的action仍然不是最好的方法
在这里插入图片描述

Actor Critic

review

policy gradient: 无法保证采样足够多的次数，G的值很不稳定
在这里插入图片描述 value base(q learning)

ac

将policy gradient括号里面的部分换成Q function - V function 即可。
在这里插入图片描述
但是这样需要解Q和V两个network，把它们化简成一个
$Q^\pi(s_t,a_t) = E[r_t + V^\pi(s_{t+1})]$
(可以去掉期望，不知道为什么）
$Q^\pi(s_t,a_t) - V^\pi(s_{t}) = r_t + V^\pi(s_{t+1}) - V^\pi(s_{t})$
这个地方引入了 $r_t$ ，也是有variance的，但是会比policy gradient原先的G的variance要小，因为G表示的是未来所有的reward的总和