David Silver深度强化学习第9课

decaying e-greedy 需要知道最优的Q(a),然后计算与次优的Q(a)之间的gap,gap越大,就越不需要探索,越小就越需要探索,这种算法的regret函数呈现对数形式,是最好的。 但是最优的Q(a)并不能预先知晓,所以需要想办法解决。

每一台赌博机的Q值分布都是不一样的,越是分布广泛的Q代表其不确定性强,就要多操作,取得经验,提高其确定性
一般的做法是:
select action maximising Upper Confidence Bound(UCB)
也就是取那个特定置信区间最大的动作进行操作,这样会降低这个动作的置信区间,把它的分布变得越来越小,越来越确定

实验的次数N(a)越小, 均值Q(a)越不确定,置信度值U(a)越大
实验的次数N(a)越大, 均值Q(a)越确定,置信度值U(a)越小。 N(a)趋向无穷,U(a)趋向0。

A = argmax Q(a)+U(a)

P的置信度 U(a)= (-logP/2N(a))的开方
所以不同a的Q(a)+U(a)都是可以算出来的,取最大的那个进行下一次。
需要注意,P值不是固定的,需要一点点的变大,表明随着时间的流逝,我们对选出的最优a,越来越有把握。
据此更进一步
A = argmax Q(a)+ (2logt/N(a))的开方 t是总的实验次数, N(a)是a动作的实验次数。

贝叶斯 bandit,是对Q(a)的分布做了假设,比如假设为高斯分布,然后利用实验数据,算出来具体的均值和方差,即后验概率

1.然后再算置信度U(a),跟UCB有点像。
2.probability matching 一个动作最好概率30%,另一个70%,对它们进行3/7 抽样。 具体方法:汤普森抽样,从不同的后验Q(a)分布里抽样,哪个Q(a)抽样最大,就选择哪个a。有了具体的概率密度函数,才能进行抽象。而之前的UCB算法是没有概率密度函数的。

探索之所以有用,是因为探索可以获得信息。如果将信息量化,就可以完美的权衡探索策略。打个比方:有个摇杆还能摇三次,那探索它获得的信息价值将极低,几乎无探索必要。

拉摇杆,获得信息,进入下一个状态,这就变成了一个MDP问题。MDP问题就可以使用simulation-based search解决,即根据real experimence 获得MDP,然后得到 simulation experimence,对simulation experimence使用rl,获得当前的最优操作。

将bandit看成一步MDP问题,每一步的状态S bar都是从开始积累到目前的所有信息的表达。
考虑(0,1)bandit,就是记录每台机器的成功次数,失败次数。
操作一次后,就进入一个新的S bar。
以前的MDP问题,reward与下个状态是无关的,此时是相关的。

解这个问题可以有2种方法:

  1. model-free rl
  2. bayesian model-based rl
    视频中重点讲了第二种方法.举的例子是2台机器,每台的Q(a)的先验概率是不一样的,一台是平均分布,一台是高斯分布。
    每次操作,就算出来一个Q(a)的后验概率。操作数据不停的修改分布,根据分布决定新的操作,如此循环。因为此方法中涉及概率分布,所以是model-based

看成MDP只是换了种思路,感觉操作跟之前的方法差不多

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值