漫谈逆向强化学习 - A Brief Review to Inverse Reinforcement Learning_基于最大边缘的逆强化学习方法

2401_84975828

于 2024-05-17 02:36:11 发布

阅读量745

点赞数 18

文章标签： c语言 c++ 学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84975828/article/details/138983442

版权

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

下面我们来探讨下逆向强行学习的基本原理和典型方法，我们假设您已经对强化学习和凸优化的基本原理有一定的了解。

文章目录

概述
基于最大边际的逆向强化学习
- 学徒学习
基于最大熵的逆向强化学习
- 基于最大信息熵的逆向强化学习

概述

我们先介绍下逆向强化学习的概念预分类：

什么是逆向强化学习呢？当完成复杂的任务时，强化学习的回报函数很难指定，我们希望有一种方法找到一种高效可靠的回报函数，这种方法就是逆向强化学习。我们假设专家在完成某项任务时，其决策往往是最优的或接近最优的，当所有的策略产生的累积汇报函数期望都不比专家策略产生的累积回报期望大时，强化学习所对应的回报函数就是根据示例学到的回报函数。即逆向强化学习就是从专家示例中学习回报函数。当需要基于最优序列样本学习策略时，我们可以结合逆向强化学习和强化学习共同提高回报函数的精确度和策略的效果。逆向强化学习的基本理论可参考如下论文：

Ng A Y, Russell S J. Algorithms for Inverse Reinforcement Learning. ICML, 2000

逆向强化学习一般流程如下：

随机生成一个策略作为初始策略；
通过比较“高手”的交互样本和自己交互样本的差别，学习得到回报函数；
利用回报函数进行强化学习，提高自己策略水平；
如果两个策略差别不大，就可以停止学习了，否则回到步骤2。

逆向强化学习分类如下：

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**

关注

18
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
漫谈逆向强化学习 - A Brief Review to Inverse Reinforcement Learning_基于最大边缘的逆强化学习方法

我们先介绍下逆向强化学习的概念预分类：什么是逆向强化学习呢？当完成复杂的任务时，强化学习的回报函数很难指定，我们希望有一种方法找到一种高效可靠的回报函数，这种方法就是逆向强化学习。我们假设专家在完成某项任务时，其决策往往是最优的或接近最优的，当所有的策略产生的累积汇报函数期望都不比专家策略产生的累积回报期望大时，强化学习所对应的回报函数就是根据示例学到的回报函数。即逆向强化学习就是从专家示例中学习回报函数。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。