1. 迁移学习目标
强化学习(Reinforcement Learning, RL; Sutton and Barto, 1998)中, 趋智能体(Agent)采取一列行动(Action, A)的以达到最大化回报(Reward, R; 可能延迟反馈)的目标. RL Agent 从零(tabula rasa)开始学习到掌握困难的任务(Task)通常很缓慢, 因此当前 RL 研究的重点是通过利用不同的领域中人类提供的大量知识来提高学习速度, 常见的方法有:
- 将Task解构成子结构 (Dietterich, 2000);
- 暂时抽象伴随 higher-level Actions(非 one-step Action) 学习 (options, Sutton et al., 1999);
- (通过函数逼近)使状态空间抽象化, 使 Agent 更有效地推广经验.
迁移学习(Transfer Learning, TL)中, 泛化可以在Task中或跨Task(Thorndike and Woodworth, 1901; Skinner, 1953). 相关的有:
- TL for 机器学习(Machine Learning, ML) (Caruana, 1995; Thrun, 1996; Thrun and Pratt, 1998);
- 规划Tasks (Fern et al., 2004; Ilghami et al., 2005);
- 认知结构的内容 (Laird et al., 1986; Choi et al., 2007);
- TL for RL (Kaelbling et al., 1996);
![d2e8d3b6b5d7d8e4d6d245ee100a896b.png](https://i-blog.csdnimg.cn/blog_migrate/cc190fe5a7f2a2109f0fc7d9b8db5ddc.jpeg)
TL for RL 是一个重要课题, RL 技术在其他机器学习技术无法或无法解决的困难Task中取得了显著的成功:
- TDGammon, Tesauro, 1994;
- job shop scheduling, Zhang and Dietterich, 1995;
- elevator control, Crites and Barto, 1996;
- helicopter control, Ng et al., 2004;
- marble maze control, Bentivegna et al., 2004;
- Robot Soccer Keepaway, Stone et al., 2005;
- quadruped locomotion, Saggar et al. 2007; Kolter et al., 2008;
传统的机器学习技术(规则归纳和分类)足够成熟, 很容易地用来协助 TL for RL, 并可以非常有效地加快学习:
- Transfer Learning program (DARPA, 2005 DARPA);
- Inductive Transfer: 10 Years Later (Silver et al., 2005 NIPS workshop);
- Structural Knowledge Transfer for Machine Learning (Banerjee et al., 2006 ICML workshop);
- Transfer Learning for Complex Tasks (Taylor et al., 2008 AAAI workshop);
按照允许源和目标Task不同的方式对文献方法进行分组, 进一步根据五不同的维度来区分方法(2.2). 区分迁移方法的一些问题包括:
- 迁移方法的目标以及能够衡量这些方法的指标 (c.f. 2);
- 对于Task之间的相似性的假设 (c.f. 3.2.1): Agent 所在空间不同, Agent目标不同, Action集不同;
- 迁移方法识别信息是否可迁移 (c.f. 3.2.2): 从假设所有以前看到的Task直接用于自主学习哪些源Task对在当前目标Task中学习有用的各种可能性;
- 在Task之间迁移的信息(c.f. 3.2.2): 低级信息, 高级信息.
2. 评估迁移学习方法
迁移方法根据不同的自主程度作出假设, 为完全自主, 迁移强化学习(Transfer Reinforcement Learning, TRL)中 Agent 必须执行以下步:
- 给定目标Task, 选择适当的源Task或要从中进行迁移的Task集.
- 了解源Task和目标Task是如何相关的.
- 有效地将知识从源Task迁移到目标Task.
这三步所用的机制必然相互依存, 然而 TL 研究对每一个单独关注, 没有 TL 方法能够稳健地完成所有步.
TL 研究的一个关键挑战是定义评估指标
如何处理在源Task中的学习过程, 算进 TL 算法 或 视为沉没成本(sunk cost), 对于 TL :
- 减少学习复杂Task所需的总时间, 则选包含学习源Task所需时间方案(a total time scenario);
- 在新Task中有效重用知识, 则选仅考虑在目标Task中学习时间方案(target task time scenario);
- 当某个Agent被人明确引导(人可为Agent构建一系列Task, 向Agent建议Task如何相关), a total time scenario更合适;
- 对于完全自主 Agent, target task time scenario更适合;
- 大多数迁移算法都假设有人引导的场景, 却忽略了在源Task中所花费的时间;
- 在讨论单个 TL 方法时, 将特别注意 a total time scenario.
更多的 TL 评估指标 (replicated from our past transfer learning work, Taylor and Stone 2007):
- 启跳(Jumpstart): Agent在目标Task中的初始性能;
- 渐近性能(Asymptotic Performance): Agent在目标Task中的最终性能;
- 总回报(Total Reward): Agent所积累的总报酬(学习曲线下的区域);
- 迁移比率(Transfer Ratio): TL Agent 累积的总报酬与 纯Agent 累积的总报酬之比;
- 阈值间隔(Time to Threshold): 通过TL所节省的 Agent 实现预定性能所需的学习时间.
![b9f79135bebb07f2dc110092d6a2056f.png](https://i-blog.csdnimg.cn/blog_migrate/abd91aa0997279ee458b7d639457044d.jpeg)
本篇将学习时间视为样本复杂度(sample complexity, SC)的指标. RL 中的样本复杂度(数据复杂度)是指算法所需的数据量, 与学习时间密切相关, 因为 RL Agent 仅通过与环境的重复交互来收集数据.
2.1 基于经验的迁移比较(Empirical Transfer Comparisons)
上文列举了五个 TL 评估指标, 每个指标在用来描述所有迁移方法的优点时都不够充分. 我们应该放弃对这些指标做指排序(a total order ranking), 而使用多个指标进行多维评估. 理解了不同的方法在不同的指标上表现不一的原理, 我们就更容易将 TL 方法与问题联系起来.
机器学习界已经定义的指标:
- 分类的精度与召回曲线 (precision vs. recall curves);
- 回归的平方误差 (mean squared error);
- process towards standardizing comparisons (Whiteson et al., 2008);
- 作为收敛的样本
- 渐近性能
- 计算复杂度
后四者并不明确.
- 启跳(initial performance), 迁移以便改善初始性能. 启跳很有吸引力, 但此指标无法捕获目标Task中的学习行为, 而是只关注学习之前的性能;
- 渐进性能(Asymptotic Performance), 比较了学习者是否迁移在目标Task中的最终表现. 然而, 很难确认学习者确实收敛(特别是在具有无限状态空间的Task中, 收敛时间可能很长). 许多环境中学习的样本数最关键(不同的学习算法可以收敛到相同的渐近性能, 但需要差别很大的样本数), 而