【论文随笔】强化学习与奖励机 LTL and Beyond: Formal Languages for Reward Function Specification in RL

本文探讨了强化学习中奖励机制的表示方法,引入了奖励机(Reward Machine)的概念,它是一种用自动机表示奖励结构的工具。作者指出,通过将形式化语言(如LTL)转化为奖励机,可以更好地定义和处理复杂的奖励函数,从而提高强化学习算法的样本效率。实验部分涉及Q-Learning和DQN,展示了如何结合奖励机进行奖励塑造,以加速学习过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言: 最近对强化学习比较感兴趣,来读一读时序逻辑与强化学习交叉的文章。P.S. 随着毕业设计的结束,最近恢复了一波旧帖子。另外新建了个人网站,可能慢慢把笔记都移到个人网站上,但就目前而言还是CSDN的编辑器用着更顺手一些些。

主要参考文献:
Camacho, A., Toro Icarte, R., Klassen, T. Q., Valenzano, R., & McIlraith, S. A. (2019, August). LTL and Beyond: Formal Languages for Reward Function Specification in Reinforcement Learning. Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence. https://doi.org/10.24963/ijcai.2019/840

概览

这篇文章提出了奖励机(Reward Machine)的概念,用自动机来表示强化学习中的奖励机制


名词解释

名词 解释
Reward Machines 奖励机,用于表示奖励结构的自动机
Reward Shaping
Sample Efficiency
lingua franca [拉丁] 通用语言

流水账笔记

1 Introduction

强化学习,简而言之,就是得到一个决策策略,使得agent获得最大收益。听起来很简单,但是其中有两个主要的问题:(1)这里的“收益”,也就是reward,应该如何定义?(2)由于大多是场景下是稀疏奖励,训练一个RL agent需要时间长、难度大。

为了解决上面两个问题,作者介绍了Toro Icarte等人的一系列工作。他们认为,通过针对特定的任务手动设计特定的奖励函数,收敛更快、效果更好。他们也探索过用LTL的一个子集来表示reward function,也是他们提出了reward machine的概念。

但是呢,在之前的工作中,每研究一门specification language,就得单独编写RL算法。于是本文作者就想,先把specification language转化为reward machine的形式(可是这一步算法不也得单独写),再由reward machine编写RL算法。

本文工作:

  • 用Mealy自动机来表示reward机制
  • 完成了各种语言到奖励机的“翻译”算法
  • 实验了reward-machine-based q-learning算法

2 Background on Reinforcement Learning

介绍了强化学习的基本背景。

RL通常表示为一个MDP过程 M = < S , A , s 0 , T , r , γ > \mathcal{M}=<S,A,s_0,T,r,\gamma> M=<S,A,s0,T,r,γ>

符号 含义
S S S 有限状态集合
A A A 有限动作集合
s 0 s_0 s0 初始状态
T T T 状态转移概率分布
r r r 奖励函数
γ \gamma
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值