【强化】Q-learning（basic idea)

最新推荐文章于 2024-09-27 14:28:55 发布

Citroooon

最新推荐文章于 2024-09-27 14:28:55 发布

阅读量90

点赞数

文章标签：算法

本文链接：https://blog.csdn.net/Citroooon/article/details/131503671

版权

review
critic: 评价一个policy的好坏
状态价值函数state-value function $V^{\pi}(s)$ : 使用policy $\pi$ , 从state s开始，到结束的expected cumulated reward
how to estimate $V$
· 蒙特卡洛
· temporal difference(TD): 有的episodes太长，用MC方法太久
$V^{\pi}(s_t) = V^{\pi}(s_{t+1}) + r_t$
两种方法对比：
· MC的一个问题是方差太大，因为游戏本身具有随机性，var(kx) = k^2var(x); TD方差小，但是准确度无法保证
· 下面这个例子用mc和td的方法计算出来的结果是不一样的
另一种Critic: Q function
state-action value function $Q^{\pi}(s,a)$ : 使用policy $\pi$ , 在state s强制使用action a（后续的action是不强制的）, 得到的cumulated reward;

所以，critic不止可以用来评估policy的好坏，还可以用来决策使用哪个action、找到更好的policy。
Q 和 V 的关系： $V^{\pi}(s)$ = $Q^{\pi}(s,\pi(s))$
Q-Learning
通过 $Q^{\pi}(s,a)$ ，找到一个更好的 $\pi'$ 。更好的定义是，对于所有的state， $V^{\pi'}(s)$ >= $V^{\pi}(s)$
$\pi'(s) = argmax_aQ^{\pi}(s,a)$
找到Q最大的action， $\pi'$ 就是会采取action a的policy， $\pi'$ 不取决于额外的参数，只取决于Q-function，但不适用于a是连续值。
证明过程：
target network
在使用TD的方法训练Q的时候，由于有两套参数需要update, 会导致训练不稳定，所以一般采取先freeze t+1部分的网络，只训练t部分的，参数更新多次之后再去update另一边。
exploration

$argmax_aQ^{\pi}(s,a)$ ,用这样的方法选择action不是最好的方法。因为如果有的action没有尝试过的话，无法进行一个准确的估计。（类似bandit里面那个EE）
解法：
· epsilon greedy：加入epsilon的概率去采取随机action
· boltzmann exploration: 根据q value的概率分布去选