第二章 多臂老虎机
试错型学习(trial-and-error learning):
是一种通过不断尝试不同的行为或动作,逐步找到能实现目标的最佳解决方案的学习过程。它的核心思想是通过反复进行尝试,在每次尝试后根据反馈(例如奖励或惩罚)进行调整,从而逐步优化行为。
在强化学习中,试错型学习是其基本机制之一。智能体在环境中进行动作,每次动作都会获得一个反馈信号(即奖励或惩罚),智能体通过这些反馈信号更新自己的策略,以期在未来的行为中最大化累积奖励。
试错型学习的几个关键特点:
- 探索与利用(Exploration and Exploitation):智能体既需要探索新的行为以寻找更好的解决方案,也需要利用已经学到的知识来获得更高的即时奖励。
- 反馈机制:通过环境的反馈,智能体逐渐学习哪些行为是有益的,哪些行为需要避免。
- 延迟奖励:智能体在试错过程中可能无法立即看到行为的结果,而是需要依靠长远的奖励信号进行决策。
一个典型的例子是迷宫中的老鼠实验:老鼠会尝试不同的路径,遇到死胡同时就会选择其他路径,最终通过不断试错,找到通向食物的正确路径。
在机器学习中,强化学习算法如Q-learning和深度Q网络(DQN)都属于基于试错型学习的框架。
问题定义
多臂老虎机:简化版的强化学习问题,不存在状态信息,只有动作和奖励。
问题:
有一个拥有 K K K根拉杆的老虎机,拉动每一根拉杆都对应一个关于奖励的概率分布 R R R。我们每次拉动其中一根拉杆,就可以从该拉杆对应的奖励概率分布中获得一个奖励 r r r。
我们在各根拉杆的奖励概率分布未知的情况下,从头开始尝试,目标是在操作 T T T次拉杆后获得尽可能高的累积奖励。由于奖励的概率分布是未知的,因此我们需要在“探索拉杆的获奖概率”和“根据经验选择获奖最多的拉杆”中进行权衡。
“采用怎样的操作策略才能使获得的累积奖励最高”便是多臂老虎机问题。
形式化描述问题:
< A , R \mathcal{A}, \mathcal{R} A,R>:
- A \mathcal{A} A:动作集合,一个动作表示拉动老虎机的一个拉杆,动作空间:{ a 1 , a 2 , . . . , a K a_1, a_2, ..., a_K a1,a2,...,aK}。 a t ∈ A a_t \in \mathcal{A} at∈