Bourne强化学习笔记3:在简单的Bandit问题中抓住强化学习的本质

强化学习最重要的特点是利用训练信息来评估动作,而不是指出最优动作。这就要求需要探索(explore)多个动作来评估、比较出最优动作。即前者只反馈动作的好坏程度,但没有直接指出哪个动作是最好或最坏的;而后者可以指导处哪个动作是最好的,并且该指导反馈与已经发生的动作无关。这也是非监督学习(评价性反馈)与监督学习(指导性反馈)的区别。评价性反馈完全依赖于所选择的动作(即所产生的样本),而指导性反馈则与所...
摘要由CSDN通过智能技术生成

强化学习最重要的特点是利用训练信息来评估动作,而不是指出最优动作。这就要求需要探索(explore)多个动作来评估、比较出最优动作。即前者只反馈动作的好坏程度,但没有直接指出哪个动作是最好或最坏的;而后者可以指导处哪个动作是最好的,并且该指导反馈与已经发生的动作无关。这也是非监督学习(评价性反馈)与监督学习(指导性反馈)的区别。评价性反馈完全依赖于所选择的动作(即所产生的样本),而指导性反馈则与所选择的动作(即所产生的样本)无关。

因此,所有RL的算法思路都是为了评估一个动作的好坏,有的用Value,有的用策略梯度,异曲同工之妙。

在Sutton的RL入门经典书本中最先出现的强化学习问题叫Bandit,即在该问题中,只有一个state,经历完该state,该问题就结束了。k-armed Bandit则是在该state中有k个选择。每个动作选择都有即时回报R,但这个R不是一个确定值,是一个服从某种概率分布的随机值,我们可用R的期望来表示该动作的真实价值,记为q。但是,在实际问题中我们并不知道哪个选择的真实价值最大,因此我们可以利用大数定理,通过多次采样,利用 sample average的方法求得动作的估计值Q,用Q来逼近真实值q。这个过程称为探索(explore)。

 

Bandit问题根据动作的即时回报R的概率分布分为:

1. Stationary,即概率分布确定不变。

2. Nonstationary,即概率分布不确定。

 

对于Stationary

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值