规则在强化学习中的应用

1. 规则的由来

强化学习中引入“规则”的想法并非一次性提出,而是逐渐演化的。在强化学习初期,规则的应用通常与“Markov决策过程”中的“约束”问题有关。由Dimitri P. Bertsekas和John N. Tsitsiklis编写的《Neuro-dynamic programming》[1]是强化学习领域的奠基之作之一,这本书中首次系统性地探讨了如何利用动态规划和强化学习解决复杂的决策问题,其中就包括将约束问题融入优化框架。书中提到的“约束”和现在强化学习中的“规则”在理念上有一些相似之处,但它们在形式和作用上并不完全一致,区分两者的关键在于,约束通常是硬性限制,一般以数学公式描述,违反约束会使动作非法(例如,在路径规划中,障碍物区域被建模为约束条件,强化学习智能体不能进入这些区域);而规则更多是逻辑性描述,违反规则可能会导致较低奖励,但不一定禁止动作,是一种软性指导,主要用于加速学习和引导智能体策略的改进(例如,在无人车的控制中,“遵守红绿灯规则”可以体现在奖励函数中,奖励遵守规则的行为,惩罚闯红灯的行为)。
明确将规则(尤其是领域知识)融入强化学习的想法可以追溯到强化学习与专家系统的交叉研究,在20世纪80年代,专家系统(Expert Systems)是一种依赖逻辑规则(如IF-THEN规则)进行推理的热门方法,而随着强化学习应用范围逐渐扩展到诸如自动驾驶,机器人控制这样的复杂系统后,人们发现仅靠数学约束不足以描述复杂任务的领域知识,当时的研究者便开始探索如何将专家系统的规则逻辑与其相结合,这一趋势催生了利用规则作为引导或限制的方法,“规则”作为一种灵活的指导方式应运而生,Sutton(1984)[2]在博士论文中讨论了如何通过外部知识(包括规则)影响强化学习的奖励机制,尽管并未直接实现逻辑规则,但其论文的思想暗示了领域知识的重要性。DeJong(1986)[3]提出了基于解释的学习(EBL),其中规则被用作模型约束,帮助学习者剔除不必要的搜索路径,这是规则与学习算法结合的一个重要案例。Kaelbling(1997)[4]探讨了强化学习系统中嵌入领域规则的可能性。将规则整合到强化学习中的方法和理论虽未明确起源于上述作者,但他们的框架为规则引入提供了基础,上述文献中的思想在现代强化学习中得到了进一步延续。2004年,Abbeel[5]介绍了通过模仿专家行为获取有效策略的强化学习方法。2017年,DeepMind在AlphaGo和 AlphaStar中结合了专家规则与强化学习,通过模仿学习引导策略初始化。此外,安全性也是规则引入的主要动机之一,将规则作为约束条件在强化学习中约束策略生成,形成了安全强化学习的研究方向。2015年,García[6]这篇综述详细讨论了如何在强化学习中利用规则保障智能体的安全。2020年,Thomas Dietterich[7]的研究是将规则与强化学习结合的一个重要节点,他提出了分层强化学习,通过分解任务,将规则融入各子任务的学习和决策中,这里的分层思想为规则的形式化提供了一种系统方法。
现代强化学习方法中,约束和规则常被结合使用,特别是在需要遵守特定领域知识、物理法则或任务限制的实际场景中,这种结合可以提高算法的效率、增强安全性、加快收敛速度,并确保解决方案满足实际应用的要求。结合约束和规则的强化学习通常有约束优化[8]、奖励塑形[9]、分层强化学习[10]、安全强化学习[11]几种形式。约束优化通过优化算法(典型的如拉格朗日乘数法)确保动作满足约束,Tesla 的自动驾驶系统就利用车队数据结合强化学习优化驾驶策略,同时嵌入物理约束以避免危险驾驶行为。奖励塑形则设计奖励函数将规则和约束融入其中。例如:超速或闯红灯将受到负奖励,及时避开障碍物或优化路径将获得正奖励。王新凯[19]等针对强化学习算法下智能车辆训练中动作选择过程随机性强、训练效率低等问题,提出了基于规则约束的智能车辆行驶决策框架,为了减少智能车辆训练过程中无意义的碰撞,将规则引入深度强化学习算法,引入的规则分为与换道相关的硬约束和与车道保持相关的软约束,分别通过动作检测模块与奖励函数来实现,实现在保证智能车辆合理探索区间的前提下,减少训练过程中的危险动作的效果。分层强化学习在高层中使用规则指导任务分解,在低层使用约束处理物理限制。安全强化学习结合规则和约束,设计“安全层”过滤或校正策略输出。工业机器人在组装、搬运等任务中就会利用分层强化学习将任务分解为子任务,结合规则指导子任务的执行顺序,高层策略根据规则规划任务顺序,低层策略根据机械臂物理约束优化运动轨迹,同时通过限制策略空间确保机器人行为始终满足运动约束。

2. 规则的作用

在强化学习中,知识规则的形式通常是明确的逻辑表达式或约束条件,用于引导或限制智能体的行为,规则的作用主要体现在以下几个方面:

(1) 提升学习效率

规则可以缩小动作空间或状态空间,使智能体不必在无意义的区域中探索,通过注入领域知识,强化学习模型可以更快地找到有效的策略。例如,在无人驾驶中,交通规则可以减少强化学习算法需要探索的可能动作。此外,在 AlphaGo 系统中,利用围棋规则作为引导来缩小策略空间[12],使得合法落子约束直接剔除不符合围棋规则的动作,避免无意义的搜索。

(2) 增强安全性

在高风险任务(如无人机飞行或自动驾驶)中,完全依赖探索可能导致严重后果。引入规则可以作为“安全约束”,防止智能体做出危险动作。例如,无人机在飞行时必须避免进入禁飞区,这是规则限制的一种典型应用。又比如,强制智能体在学习过程中遵守红绿灯信号、车速限制和避让行人等交通规则[6]。

(3) 适应复杂任务

在复杂系统中,任务往往包含多个子目标或约束条件,单纯依赖强化学习难以实现。知识规则帮助智能体分解任务、设定优先级,从而减少任务难度[10]。商用机器人在分拣任务中可以通过规则(如优先处理紧急订单)指导任务规划,在组装任务中,高层规则规定任务顺序(如先抓取零件再进行装配),低层策略在规则指导下优化运动路径,通过规则明确子任务之间的依赖关系(如抓取需要先靠近目标),智能体能更有效地完成复杂任务。

3. 规则的生成方式

在强化学习中,规则的产生通常基于问题的具体需求、任务的复杂性和领域知识。规则的来源和生成方式主要有以下几种:

(1) 专家知识

专家知识是通过领域专家根据经验和任务需求进行显式设计的方式,通常适用于有明确物理限制、安全约束或法律规范的场景,例如交通法规、工业标准。在无人驾驶中的规则如“红灯必须停车”、“避免与行人碰撞”等由交通法规直接提供;在仓储机器人中的规则例如“优先处理紧急订单”、“禁止超过电池负载”由其标准制定。该方法的优点是生成快速,适合初始策略设计,易于保证系统的安全性和合规性,不足是缺乏灵活性,可能无法适应动态环境。

(2) 数据驱动(通过示例或模仿学习提取)

数据驱动是通过从人类操作或专家数据中分析示例行为总结关键决策逻辑来提取规则的方式,通常结合模仿学习直接模仿专家行为形成初始规则,或通过逆强化学习方法观察专家行为,推导隐含的目标和规则。在无人驾驶中,从大量驾驶员行为数据中提取隐含的规则[13],例如“在雨天需降低车速”就是数据驱动得来的规则。数据驱动得到的规则贴合实际任务需求,具有较强适应性,可应用于复杂场景中的隐式规则提取。然而,由于数据依赖性强,可能受到数据噪声或偏差的影响,提取的规则或缺乏解释性。

(3) 自动生成(学习驱动)

自动生成是通过强化学习智能体的自我探索或优化过程自动产生规则的方式。自动生成需要通过一定的算法来实现,基于奖励设计的方法使得智能体通过环境交互逐渐形成满足高奖励的规则,基于进化策略的方法使得多个智能体在竞争或协作过程中演化出有效规则,基于符号规则提取的方法结合符号学习和强化学习,从训练好的策略中提取可解释的逻辑规则。游戏AI可以通过自动生成得到有效的动作规则,例如通过神经进化优化智能体行为的优先级[14]。在导航机器人上,智能体通过环境探索自动生成“避开障碍物”的规则。自动生成的方式无需明确提供规则,能够生成任务特定的优化策略,灵活性强,可适应动态环境。然而,自动生成可能产生不可解释或难以验证的规则,并且其训练成本高,探索效率也比较低。

(4) 基于逻辑与规划的规则生成

基于逻辑与规划的规则生成是借助逻辑推理工具或任务规划方法,从高层目标分解出低层次的规则的方法,该方法结合了强化学习与传统规划算法,在机器人任务规划中广泛应用[15]。基于逻辑与规划的规则生成首先进行逻辑规划,利用逻辑推理工具(如Prolog)生成任务规则;其次进行分层学习,高层模块负责目标规划,低层模块生成细化规则;最后进行规则校正,根据强化学习智能体行为的输出,迭代修正规则。在商用机器人中,可以利用高层规划模块生成“先完成高优先级订单”的规则,低层模块实现具体路径规划。该方法的优点是规则结构清晰,便于分解复杂任务,并且高层规则可以灵活适配多种环境。缺点是较为依赖逻辑工具和领域知识,在高度动态环境下可能需要频繁调整。

(5) 知识引导

知识引导是参考现有知识库或知识图谱中或其他预定义的知识资源生成规则的方式。知识引导利用知识库中的已知规则指导智能体的策略探索,或结合强化学习智能体的状态,动态查询相关规则。自动驾驶就可从交通法规知识库中直接提取驾驶规则,此外,基于知识引导的强化学习在医学治疗中也有应用[16]。该方法的优点是规则来源权威,具有较高可信度,且易于扩展和更新。缺点是构建高质量的知识库并非易事,并且知识库中的规则可能与特定任务不完全匹配。
在诸如无人驾驶这样的复杂任务中,规则的产生往往结合多种来源,例如红灯停车等规则由专家知识生成,道路驾驶行为规则通过模仿学习提取,优化超车策略通过强化学习自动生成。规则的产生方式多种多样,最终选择哪种方式取决于任务复杂性和规则需求,表1是各种方式的优缺点对比。

表1.各种规则生成方式对比
在这里插入图片描述

4. 规则与强化学习结合的方式

规则可以帮助强化学习算法更高效地学习,并在解决问题时更具鲁棒性和可解释性。规则可以通过多种方式与强化学习模型结合,如:

• 动作过滤和约束:限制强化学习的探索空间,通过合法动作筛选减少搜索空间,避免无效探索。
• 奖励函数增强:利用规则设计更有意义的奖励信号,引导智能体更快收敛。
• 定义状态转化条件:限制状态的可达性,禁止无效或危险状态转移,减少搜索空间;利用规则补充模型化强化学习中的状态转移函数[17]。
• 分层架构结合:高层决策基于规则规划任务顺序,低层由强化学习执行细节。
• 安全机制添加:运行时实时监测并调整不合理动作,通过规则实时监控智能体行为,避免危险动作。

5. 规则在AlphaStar中的应用举例

AlphaStar 是 DeepMind 针对即时战略游戏《星际争霸 II》开发的强化学习模型。与 AlphaGo 类似,它将规则融入模型,规则的来源有两个,一个是游戏规则,例如“不能在未解锁科技建筑的情况下建造高级单位”、“资源数量限制了生产规模”,这些规则以显式的形式体现在 AlphaStar 的决策模块中;第二个是通过模仿学习获得专家数据,AlphaStar在训练初期,利用职业选手的对战数据进行模仿学习,提取了游戏操作中的隐式规则,例如“优先侦察敌方基地”、“早期阶段快速扩大经济规模”。这些规则并非直接用“IF-THEN”形式表达,而是通过奖励设计、动作限制和模仿学习以数据驱动的方式融入模型。
一个具体的例子是,在《星际争霸 II》中,开局阶段玩家需要决定是先发展经济还是快速进攻。通过显示游戏规则的限制,AlphaStar 知道只有采集足够资源后,才能建造更多高级单位,这是其决策过程的约束条件。而通过模仿学习的引导,AlphaStar 学到的隐式规则是“在资源采集安全的情况下优先扩展经济”。 在后续训练中,AlphaStar 还会通过强化学习进一步调整规则以适应更复杂的场景。例如“根据敌方位置和侦察信息调整策略”,即如果侦察到敌方基地位置较远,经济优先策略的成功率较高,此时优先扩展基地;如果侦察到敌方快速进攻,则优先生产战斗单位。

6. 规则在无人机中的应用举例

规则在无人机强化学习决策过程中,起到约束、引导和增强的作用,帮助智能体更高效、更安全地完成任务。以下通过具体场景和案例来说明规则在无人机强化学习中的应用:
(1) 限制动作空间:过滤非法或低效的决策
通过预定义的规则,限制无人机的动作选择,过滤掉不符合条件的动作,减少探索无效动作的时间,强化学习算法可以集中资源探索更有价值的策略。在无人机避障任务中,基于规则的动作过滤显著减少了探索过程中碰撞的次数[18]。拿无人机实施城市配送任务举例,这样的过滤可以有效保护无人机避免选择可能导致撞击建筑物的飞行路径。
(2) 奖励函数设计:引导无人机策略优化
利用规则设计奖励函数,引导智能体学习符合规则的最优策略。通过正奖励和负奖励函数的设计,能够让智能体学习更贴近现实需求的策略,减少无意义探索。正奖励鼓励无人机完成符合任务目标的行为,如避开障碍、路径最优;负奖励惩罚不安全或不符合任务要求的行为,如进入禁飞区、过度能量消耗。继续拿配送任务举例,基于规则的奖励函数设计可以包括:提前完成任务的奖励,超出能量预算的惩罚以及不遵守飞行安全规则的高惩罚等。
(3) 定义状态转移规则:辅助动态模型构建
通过规则定义状态转换的逻辑,明确某状态下动作如何影响未来状态,从而减少状态转移的不确定性,提升模型的学习效率和可靠性。状态转移规则分为固定规则和动态规则两种,固定规则结合物理定律和飞行规律,例如“无人机在电量低于某阈值时转移到返航模式”;动态规则结合传感器数据,实时调整状态转移,例如“根据风速调整飞行模式”。 在无人机巡逻任务中,就可以使用规则定义“巡逻状态”与“返航状态”的转换条件:当电量低于 30% 或任务完成时,状态自动转为“返航”。
(4) 提供先验知识:缩短探索过程
通过规则为无人机提供任务相关的先验知识,加速策略学习,避免对复杂环境的不必要试探。例如在路径规划中,初始学习阶段基于规则提供一个近似最优路径,在复杂地形中(如山区巡逻任务),无人机可以通过规则预定义的路径避开陡峭山坡,减少探索失败。
(5) 分层决策架构:规则辅助高层规划
在分层强化学习中,高层规则定义任务的子目标顺序,低层策略通过强化学习实现高层规则中各子任务的执行,以此提升无人机应对复杂任务的能力。例如,在无人机的搜救任务中,高层规则规划无人机依次搜索不同区域,并基于传感器信息动态调整顺序,低层策略负责如何高效地完成单个区域内的路径搜索。
(6) 增强安全性:实时调整策略
结合实时监测和规则,动态调整无人机策略,提高系统鲁棒性。例如无人机的碰撞规避中[20],规则定义障碍物的安全距离,一旦接近危险区域,或是在障碍物突然出现时快速反应,立即调整策略。又比如紧急措施中,在电量低或通信中断时,触发返航或悬停模式。

参考文献

[1] Bertsekas D P. Neuro-dynamic programming[J]. Athena Scientific, 1996.
[2] Sutton R S. Temporal credit assignment in reinforcement learning[M].: University of Massachusetts Amherst, 1984.
[3] Dejong G, Mooney R. Explanation-based learning: an alternative view[J]. Machine learning, 1986, 1: 145-176.
[4] Kaelbling L P. Learning in embedded systems[M].: MIT press, 1993.
[5] Abbeel P, Ng A Y. Apprenticeship learning via inverse reinforcement learning[C]. Proceedings of the twenty-first international conference on Machine learning. 2004.
[6] Garcıa J, Fernández F. A comprehensive survey on safe reinforcement learning[J]. Journal of Machine Learning Research, 2015, 16(1): 1437-1480.
[7] Dietterich T G. Hierarchical reinforcement learning with the MAXQ value function decomposition[J]. Journal of artificial intelligence research, 2000, 13: 227-303.
[8] Achiam J, Held D, Tamar A, et al. Constrained policy optimization[A]. International conference on machine learning[C]. 2017: 22-31.
[9] Ng A Y, Harada D, Russell S. Policy invariance under reward transformations: theory and application to reward shaping[A]. Icml[C]. 1999: 278-287.
[10] Barto A G, Mahadevan S. Recent advances in hierarchical reinforcement learning[J]. Discrete event dynamic systems, 2003, 13: 341-379.
[11] Brunke L, Greeff M, Hall A W, et al. Safe learning in robotics: from learning-based control to safe reinforcement learning[J]. Annual Review of Control, Robotics, and Autonomous Systems, 2022, 5(1): 411-444.
[12] Silver D, Huang A, Maddison C J, et al. Mastering the game of go with deep neural networks and tree search[J]. nature, 2016, 529(7587): 484-489.
[13] Kendall A, Hawke J, Janz D, et al. Learning to drive in a day. 2019 international conference on robotics and automation (ICRA)[C]. 2019: 8248-8254.
[14] Stanley K O, Miikkulainen R. Evolving neural networks through augmenting topologies[J]. Evolutionary computation, 2002, 10(2): 99-127.
[15] Ghallab M. Automated planning: theory and practice[M].: Morgan Kaufmann, 2004.
[16] Yang C, Shiranthika C, Wang C, et al. Reinforcement learning strategies in cancer chemotherapy treatments: a review[J]. Computer Methods and Programs in Biomedicine, 2023, 229: 107280.
[17] Deisenroth M, Rasmussen C E. Pilco: a model-based and data-efficient approach to policy search[A]. Proceedings of the 28th International Conference on machine learning (ICML-11)[C]. 2011: 465-472.
[18] Peng C, Liu X, Ma J. Design of safe optimal guidance with obstacle avoidance using control barrier function-based actor–critic reinforcement learning[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2023.
[19] 王新凯,王树凤,王世皓. 基于规则约束的深度强化学习智能车辆高速路场景下行驶决策.[J]. Automobile Technology, 2023(9).
[20] Kahn G, Villaflor A, Pong V, et al. Uncertainty-aware reinforcement learning for collision avoidance[J]. arXiv preprint arXiv:1702.01182, 2017.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值