《动手学强化学习》内容精炼及扩展-第二章

第二章 多臂老虎机

试错型学习(trial-and-error learning):

是一种通过不断尝试不同的行为或动作,逐步找到能实现目标的最佳解决方案的学习过程。它的核心思想是通过反复进行尝试,在每次尝试后根据反馈(例如奖励或惩罚)进行调整,从而逐步优化行为。

在强化学习中,试错型学习是其基本机制之一。智能体在环境中进行动作,每次动作都会获得一个反馈信号(即奖励或惩罚),智能体通过这些反馈信号更新自己的策略,以期在未来的行为中最大化累积奖励。

试错型学习的几个关键特点:

  1. 探索与利用(Exploration and Exploitation):智能体既需要探索新的行为以寻找更好的解决方案,也需要利用已经学到的知识来获得更高的即时奖励。
  2. 反馈机制:通过环境的反馈,智能体逐渐学习哪些行为是有益的,哪些行为需要避免。
  3. 延迟奖励:智能体在试错过程中可能无法立即看到行为的结果,而是需要依靠长远的奖励信号进行决策。

一个典型的例子是迷宫中的老鼠实验:老鼠会尝试不同的路径,遇到死胡同时就会选择其他路径,最终通过不断试错,找到通向食物的正确路径。

在机器学习中,强化学习算法如Q-learning和深度Q网络(DQN)都属于基于试错型学习的框架。

问题定义

多臂老虎机:简化版的强化学习问题,不存在状态信息,只有动作和奖励。
问题:
有一个拥有 K K K根拉杆的老虎机,拉动每一根拉杆都对应一个关于奖励的概率分布 R R R。我们每次拉动其中一根拉杆,就可以从该拉杆对应的奖励概率分布中获得一个奖励 r r r
我们在各根拉杆的奖励概率分布未知的情况下,从头开始尝试,目标是在操作 T T T次拉杆后获得尽可能高的累积奖励。由于奖励的概率分布是未知的,因此我们需要在“探索拉杆的获奖概率”和“根据经验选择获奖最多的拉杆”中进行权衡。
“采用怎样的操作策略才能使获得的累积奖励最高”便是多臂老虎机问题。
在这里插入图片描述
形式化描述问题:
< A , R \mathcal{A}, \mathcal{R} A,R>:

  • A \mathcal{A} A:动作集合,一个动作表示拉动老虎机的一个拉杆,动作空间:{ a 1 , a 2 , . . . , a K a_1, a_2, ..., a_K a1,a2,...,aK}。 a t ∈ A a_t \in \mathcal{A} at
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值