前言: 最近对强化学习比较感兴趣,来读一读时序逻辑与强化学习交叉的文章。P.S. 随着毕业设计的结束,最近恢复了一波旧帖子。另外新建了个人网站,可能慢慢把笔记都移到个人网站上,但就目前而言还是CSDN的编辑器用着更顺手一些些。
主要参考文献:
Camacho, A., Toro Icarte, R., Klassen, T. Q., Valenzano, R., & McIlraith, S. A. (2019, August). LTL and Beyond: Formal Languages for Reward Function Specification in Reinforcement Learning. Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence. https://doi.org/10.24963/ijcai.2019/840
文章目录
概览
这篇文章提出了奖励机(Reward Machine)的概念,用自动机来表示强化学习中的奖励机制
名词解释
名词 | 解释 |
---|---|
Reward Machines | 奖励机,用于表示奖励结构的自动机 |
Reward Shaping | |
Sample Efficiency | |
lingua franca | [拉丁] 通用语言 |
流水账笔记
1 Introduction
强化学习,简而言之,就是得到一个决策策略,使得agent获得最大收益。听起来很简单,但是其中有两个主要的问题:(1)这里的“收益”,也就是reward,应该如何定义?(2)由于大多是场景下是稀疏奖励,训练一个RL agent需要时间长、难度大。
为了解决上面两个问题,作者介绍了Toro Icarte等人的一系列工作。他们认为,通过针对特定的任务手动设计特定的奖励函数,收敛更快、效果更好。他们也探索过用LTL的一个子集来表示reward function,也是他们提出了reward machine的概念。
但是呢,在之前的工作中,每研究一门specification language,就得单独编写RL算法。于是本文作者就想,先把specification language转化为reward machine的形式(可是这一步算法不也得单独写),再由reward machine编写RL算法。
本文工作:
- 用Mealy自动机来表示reward机制
- 完成了各种语言到奖励机的“翻译”算法
- 实验了reward-machine-based q-learning算法
2 Background on Reinforcement Learning
介绍了强化学习的基本背景。
RL通常表示为一个MDP过程 M = < S , A , s 0 , T , r , γ > \mathcal{M}=<S,A,s_0,T,r,\gamma> M=<S,A,s0,T,r,γ>
符号 | 含义 |
---|---|
S S S | 有限状态集合 |
A A A | 有限动作集合 |
s 0 s_0 s0 | 初始状态 |
T T T | 状态转移概率分布 |
r r r | 奖励函数 |
γ \gamma |