强化学习
Welosthesightof
这个作者很懒,什么都没留下…
展开
-
探索和利用困境
假设有两台老虎机,简化成只需要拉杆就能玩,结果只有胜利和失败,胜利为1,失败为2。 事先并不知道每台机器的实际胜率,所以只能不断的玩来评估。一开始玩哪一台都一样,胜率都为0,假设我玩第一台,输了。第二次选择玩第二台就很合理。假设玩第二台我赢了,这个时候第一台胜率为0,第二台为100%。这个时候合理的选择是玩第二台,假如之后一直玩第二台,然后一直输,无论如何第二台的胜率都是会高于第一台0。 如果是利用,则会选择最优的策略,也就是概率最大的,也就是选择玩第二台。达到收益最大化。 如果是探索,则应该有一定几率选到原创 2021-07-29 05:06:48 · 212 阅读 · 0 评论 -
迭代策略评估(决定论)
决定论指的是,agent在某个状态做出一个行为必定到达另一个状态。 如果从100楼高的地方,跳楼,百分之百死掉,这是决定论。 如果是概率论,则做出一个行为可以能有不同的状态,比如假设有一头熊追我,如果我装睡(action),熊可能不吃我,也可能吃我。 迭代策略评估的核心是通过贝尔曼方程更新当前状态的价值,再用新的价值与旧的价值比较,也就是做差值,如果这个差的绝对值小于一个门槛(人为设置),就说明价值函数找到了。 为什么是这样?简单点说是靠贝尔曼方程的迭代。本质上是加权求平均值,可以理解为,平均值是一样的,迭原创 2021-08-11 22:02:30 · 580 阅读 · 0 评论 -
Thompson Sampling(汤普森采样)
1.power socket problem 一个robot快没电了,Robot 进入了一个包含 5 个不同电源插座的充电室。这些插座中的每一个都会返回略有不同的电荷量,我们希望在最短的时间内让 Baby Robot 充满电,所以我们需要找到最好的插座,然后使用它直到充电完成。 作为介绍,为了让事情更容易处理,让我们简化power socket problem问题。现在,当一个随机变量只有两种可能的结果时,它的行为可以用伯努利分布来描述。用每个socket能充电或不能充电来代替返回会变化数额的电荷。奖励只有原创 2021-08-04 20:24:38 · 919 阅读 · 0 评论