David Silver深度强化学习第9课

最新推荐文章于 2022-03-10 19:38:22 发布

war3gu

最新推荐文章于 2022-03-10 19:38:22 发布

阅读量278

点赞数

分类专栏：强化学习文章标签： AI

本文链接：https://blog.csdn.net/war3gu/article/details/90615688

版权

强化学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

decaying e-greedy 需要知道最优的Q(a)，然后计算与次优的Q（a）之间的gap，gap越大，就越不需要探索，越小就越需要探索，这种算法的regret函数呈现对数形式，是最好的。但是最优的Q(a)并不能预先知晓，所以需要想办法解决。

每一台赌博机的Q值分布都是不一样的，越是分布广泛的Q代表其不确定性强，就要多操作，取得经验，提高其确定性
一般的做法是：
select action maximising Upper Confidence Bound（UCB）
也就是取那个特定置信区间最大的动作进行操作，这样会降低这个动作的置信区间，把它的分布变得越来越小，越来越确定

实验的次数N（a）越小，均值Q（a）越不确定，置信度值U（a）越大
实验的次数N（a）越大，均值Q（a）越确定，置信度值U（a）越小。 N（a）趋向无穷，U（a）趋向0。

A = argmax Q（a）+U（a）

P的置信度 U（a）= (-logP/2N(a))的开方
所以不同a的Q（a）+U（a）都是可以算出来的，取最大的那个进行下一次。
需要注意，P值不是固定的，需要一点点的变大，表明随着时间的流逝，我们对选出的最优a，越来越有把握。
据此更进一步
A = argmax Q（a）+ (2logt/N(a))的开方 t是总的实验次数， N（a）是a动作的实验次数。

贝叶斯 bandit，是对Q（a）的分布做了假设，比如假设为高斯分布，然后利用实验数据，算出来具体的均值和方差，即后验概率

1.然后再算置信度U（a），跟UCB有点像。
2.probability matching 一个动作最好概率30%，另一个70%，对它们进行3/7 抽样。具体方法：汤普森抽样，从不同的后验Q（a）分布里抽样，哪个Q（a）抽样最大，就选择哪个a。有了具体的概率密度函数，才能进行抽象。而之前的UCB算法是没有概率密度函数的。

探索之所以有用，是因为探索可以获得信息。如果将信息量化，就可以完美的权衡探索策略。打个比方：有个摇杆还能摇三次，那探索它获得的信息价值将极低，几乎无探索必要。

拉摇杆，获得信息，进入下一个状态，这就变成了一个MDP问题。MDP问题就可以使用simulation-based search解决，即根据real experimence 获得MDP，然后得到 simulation experimence，对simulation experimence使用rl，获得当前的最优操作。

将bandit看成一步MDP问题，每一步的状态S bar都是从开始积累到目前的所有信息的表达。
考虑（0，1）bandit，就是记录每台机器的成功次数，失败次数。
操作一次后，就进入一个新的S bar。
以前的MDP问题，reward与下个状态是无关的，此时是相关的。

解这个问题可以有2种方法：

model-free rl
bayesian model-based rl
视频中重点讲了第二种方法.举的例子是2台机器，每台的Q（a）的先验概率是不一样的，一台是平均分布，一台是高斯分布。
每次操作，就算出来一个Q（a）的后验概率。操作数据不停的修改分布，根据分布决定新的操作，如此循环。因为此方法中涉及概率分布，所以是model-based

看成MDP只是换了种思路，感觉操作跟之前的方法差不多