Reinforcement Learning - An Introduction强化学习读书笔记 Ch2.9-Ch3.3

2.9 关联搜索(上下文相关的赌博机)

之前的任务均为非关联的任务,即不同的动作和不同的情景之间没有联系,在这种任务中,当任务是平稳的时候(收益的概率分布不随时间而变化),agent试图找到一个最佳的动作;当任务是非平稳的时候(收益的概率分布随时间变化),最佳动作会随着时间的变化而变化,此时它会尝试去追踪最佳动作的变化。
而在一般的强化学习问题中,往往不止一种情景,agent的目标应该是学习从一个特定情境到最优动作的映射。
举例一种关联任务,假设有一系列不同的k臂赌博机任务,每一步都要随机地面对其中的一个,因此赌博机任务在每一步都是随机变化的。但是从agent的角度来看,这是一个非平稳的(收益概率分布在变化)k臂赌博机问题,其真实的动作价值是每一步都是随机变化的(每次面对的赌博机任务在实际上是随机变化的,而agent只能看到这种随机性),如果只是用本章应对非平稳问题的方法,是很难追踪到这种随机变化的。
而假设在遇到任务时,会得到这个任务的编号的明显线索(不是动作价值的线索),例如赌博机的外观颜色和动作价值的集合是一一对应的,红色对应1号集合,蓝色对应2号集合,等等,而agent就能使用看到的颜色作为信号,来把任务和该任务下的最优动作给直接关联起来,有了这种任务关联的策略,在知道任务编号信息时往往能做得比不知道更好。
而关联搜索,就是既要涉及采用试错学习去搜索最优的动作,又要将这些动作与它们表现最优时的情景给联系到一起,也被成为上下文相关赌博机。

2.10 本章小结

ϵ − \epsilon - ϵgreedy方法

以一定概率进行非贪心动作的随机选取

UCB方法(置信度上界)

在非贪心动作中,根据动作的潜力来选择事实上更可能是最优的动作。

梯度赌博机算法

用偏好函数代替动作价值,并使用softmax处理偏好函数。

贝叶斯方法(后验采样)

假定已知动作价值的初始分布,然后在每一步更新分布,一般来说更新计算比较复杂,但是对于某些特殊分布(共轭先验)则很容易。

在同类问题的不同方法的性能比较上,可以采取参数研究图来显示性能。

3.1“agent-环境”交互接口

MDP是序列决策的经典形式化表达,其动作不仅影响当前的即时收益,还影响未来的状态和收益。MDP涉及了延迟收益,也就需要权衡当前收益和延迟收益。在MDP问题中,估计每个动作a在每个状态s中的价值 q ∗ ( s , a ) q_*(s,a) q(s,a),或者估计给定最优动作下的每个状态的价值 v ∗ ( s ) v_*(s) v(s)

在每个离散时刻t=0,1,2,3…,agent观察到环境所处的状态 S t S_t St并采取一个动作 A t A_t At,下一时刻,作为该动作的结果agent会收到一个收益Rt+1,并进入新的状态 S t S_t St,从而agent和MDP共同给出了一个序列S0,A0,R1,S1,A1,R2,S2,A2,R3…。
在有限MDP中, S , A , R S,A,R S,A,R的集合只有有限个元素,且Rt和St具有明确的离散概率分布,且只依赖于前继状态和动作。
环境的动态特性由概率分布刻画出来,而每个状态和值出现的概率只与上一个状态和上一个动作有关,并且与更早之前的状态与动作无关,状态转移概率的公式为:
在这里插入图片描述
而状态动作二元组的期望收益为:
在这里插入图片描述
而状态动作后继状态的三元组的期望收益可以表示为:
在这里插入图片描述

3.2 目标和收益

agent的目标是最大化总收益。
但收益信号只是传达“什么”是想要实现的目标,而并不是传达agent如何实现目标的。

3.3 回报和分幕

agent和环境的交互能被自然分成一系列子序列(每个序列都存在最终时刻)时,每个子序列成为幕,每一幕都以终止状态结束,随后重新从某个标准的起始状态或起始状态的分布中的某个状态样本开始,具有这种分幕重复特性的任务成为分幕式任务。
而交互是持续不断发声的任务称为持续性任务时,引入折扣因子来最大化期望折后回报:
在这里插入图片描述
折后回报也可定义为迭代形式:
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值