【论文随笔】强化学习与奖励机 LTL and Beyond: Formal Languages for Reward Function Specification in RL

ALL 2 WELL

已于 2022-08-10 16:43:53 修改

阅读量994

点赞数

文章标签：人工智能机器学习

于 2022-07-07 23:49:40 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/WSQ_2000/article/details/125664354

版权

本文探讨了强化学习中奖励机制的表示方法，引入了奖励机（Reward Machine）的概念，它是一种用自动机表示奖励结构的工具。作者指出，通过将形式化语言（如LTL）转化为奖励机，可以更好地定义和处理复杂的奖励函数，从而提高强化学习算法的样本效率。实验部分涉及Q-Learning和DQN，展示了如何结合奖励机进行奖励塑造，以加速学习过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言：最近对强化学习比较感兴趣，来读一读时序逻辑与强化学习交叉的文章。P.S. 随着毕业设计的结束，最近恢复了一波旧帖子。另外新建了个人网站，可能慢慢把笔记都移到个人网站上，但就目前而言还是CSDN的编辑器用着更顺手一些些。

主要参考文献：
Camacho, A., Toro Icarte, R., Klassen, T. Q., Valenzano, R., & McIlraith, S. A. (2019, August). LTL and Beyond: Formal Languages for Reward Function Specification in Reinforcement Learning. Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence. https://doi.org/10.24963/ijcai.2019/840

概览

这篇文章提出了奖励机（Reward Machine）的概念，用自动机来表示强化学习中的奖励机制

名词解释

名词	解释
Reward Machines	奖励机，用于表示奖励结构的自动机
Reward Shaping
Sample Efficiency
lingua franca	[拉丁] 通用语言

流水账笔记

1 Introduction

强化学习，简而言之，就是得到一个决策策略，使得agent获得最大收益。听起来很简单，但是其中有两个主要的问题：（1）这里的“收益”，也就是reward，应该如何定义？（2）由于大多是场景下是稀疏奖励，训练一个RL agent需要时间长、难度大。

为了解决上面两个问题，作者介绍了Toro Icarte等人的一系列工作。他们认为，通过针对特定的任务手动设计特定的奖励函数，收敛更快、效果更好。他们也探索过用LTL的一个子集来表示reward function，也是他们提出了reward machine的概念。

但是呢，在之前的工作中，每研究一门specification language，就得单独编写RL算法。于是本文作者就想，先把specification language转化为reward machine的形式（可是这一步算法不也得单独写），再由reward machine编写RL算法。

本文工作：

用Mealy自动机来表示reward机制
完成了各种语言到奖励机的“翻译”算法
实验了reward-machine-based q-learning算法

2 Background on Reinforcement Learning

介绍了强化学习的基本背景。

RL通常表示为一个MDP过程 $\mathcal{M}=<S,A,s_0,T,r,\gamma>$

符号	含义
$S$	有限状态集合
$A$	有限动作集合
$s_0$	初始状态
$T$	状态转移概率分布
$r$	奖励函数
$\gamma$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。