Reinforcement Learning - An Introduction强化学习读书笔记 Ch2.9-Ch3.3

最新推荐文章于 2022-04-26 22:08:53 发布

华东师范大学小崔

最新推荐文章于 2022-04-26 22:08:53 发布

阅读量301

点赞数

分类专栏：强化学习入门文章标签：深度学习强化学习

本文链接：https://blog.csdn.net/qq_41608822/article/details/106121474

版权

强化学习入门专栏收录该内容

22 篇文章 12 订阅

订阅专栏

2.9 关联搜索（上下文相关的赌博机）

之前的任务均为非关联的任务，即不同的动作和不同的情景之间没有联系，在这种任务中，当任务是平稳的时候（收益的概率分布不随时间而变化），agent试图找到一个最佳的动作；当任务是非平稳的时候（收益的概率分布随时间变化），最佳动作会随着时间的变化而变化，此时它会尝试去追踪最佳动作的变化。
而在一般的强化学习问题中，往往不止一种情景，agent的目标应该是学习从一个特定情境到最优动作的映射。
举例一种关联任务，假设有一系列不同的k臂赌博机任务，每一步都要随机地面对其中的一个，因此赌博机任务在每一步都是随机变化的。但是从agent的角度来看，这是一个非平稳的（收益概率分布在变化）k臂赌博机问题，其真实的动作价值是每一步都是随机变化的（每次面对的赌博机任务在实际上是随机变化的，而agent只能看到这种随机性），如果只是用本章应对非平稳问题的方法，是很难追踪到这种随机变化的。
而假设在遇到任务时，会得到这个任务的编号的明显线索（不是动作价值的线索），例如赌博机的外观颜色和动作价值的集合是一一对应的，红色对应1号集合，蓝色对应2号集合，等等，而agent就能使用看到的颜色作为信号，来把任务和该任务下的最优动作给直接关联起来，有了这种任务关联的策略，在知道任务编号信息时往往能做得比不知道更好。
而关联搜索，就是既要涉及采用试错学习去搜索最优的动作，又要将这些动作与它们表现最优时的情景给联系到一起，也被成为上下文相关赌博机。

2.10 本章小结

$\epsilon -$ greedy方法

以一定概率进行非贪心动作的随机选取

UCB方法（置信度上界）

在非贪心动作中，根据动作的潜力来选择事实上更可能是最优的动作。

梯度赌博机算法

用偏好函数代替动作价值，并使用softmax处理偏好函数。

贝叶斯方法（后验采样）

假定已知动作价值的初始分布，然后在每一步更新分布，一般来说更新计算比较复杂，但是对于某些特殊分布（共轭先验）则很容易。

在同类问题的不同方法的性能比较上，可以采取参数研究图来显示性能。

3.1“agent-环境”交互接口

MDP是序列决策的经典形式化表达，其动作不仅影响当前的即时收益，还影响未来的状态和收益。MDP涉及了延迟收益，也就需要权衡当前收益和延迟收益。在MDP问题中，估计每个动作a在每个状态s中的价值 $q_*(s,a)$ ，或者估计给定最优动作下的每个状态的价值 $v_*(s)$ 。

在每个离散时刻t=0,1,2,3…，agent观察到环境所处的状态 $S_t$ 并采取一个动作 $A_t$ ，下一时刻，作为该动作的结果agent会收到一个收益R_t+1，并进入新的状态 $S_t$ ，从而agent和MDP共同给出了一个序列S₀,A₀,R₁,S₁,A₁,R₂,S₂,A₂,R₃…。
在有限MDP中， $S, A, R$ 的集合只有有限个元素，且R_t和S_t具有明确的离散概率分布，且只依赖于前继状态和动作。
环境的动态特性由概率分布刻画出来，而每个状态和值出现的概率只与上一个状态和上一个动作有关，并且与更早之前的状态与动作无关，状态转移概率的公式为：
在这里插入图片描述
而状态动作二元组的期望收益为：

而状态动作后继状态的三元组的期望收益可以表示为：

3.2 目标和收益

agent的目标是最大化总收益。
但收益信号只是传达“什么”是想要实现的目标，而并不是传达agent如何实现目标的。

3.3 回报和分幕

agent和环境的交互能被自然分成一系列子序列（每个序列都存在最终时刻）时，每个子序列成为幕，每一幕都以终止状态结束，随后重新从某个标准的起始状态或起始状态的分布中的某个状态样本开始，具有这种分幕重复特性的任务成为分幕式任务。
而交互是持续不断发声的任务称为持续性任务时，引入折扣因子来最大化期望折后回报：
在这里插入图片描述
折后回报也可定义为迭代形式：

华东师范大学小崔

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Reinforcement Learning - An Introduction强化学习读书笔记 Ch2.9-Ch3.3

2.9 关联搜索（上下文相关的赌博机）之前的任务均为非关联的任务，即不同的动作和不同的情景之间没有联系，在这种任务中，当任务是平稳的时候（收益的概率分布不随时间而变化），agent试图找到一个最佳的动作；当任务是非平稳的时候（收益的概率分布随时间变化），最佳动作会随着时间的变化而变化，此时它会尝试去追踪最佳动作的变化。而在一般的强化学习问题中，往往不止一种情景，agent的目标应该是学习从一个特定情境到最优动作的映射。2.10 本章小结3.1“agent-环境”交互接口3.2 目标和收益3.3
复制链接

扫一扫