![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 89
lan_12138
这个作者很懒,什么都没留下…
展开
-
最大熵逆强化学习
逆强化学习给定expert (专家)的一组demonstration (示范) D={τi}i=1nD=\{\tau_i\}_{i=1}^nD={τi}i=1n, 其中τi={(si1,ai1),(si2,ai2),...,(si(n−1),ai(n−1)),sn}\tau_i = \{(s_{i1}, a_{i1}), (s_{i2}, a_{i2}), ..., (s_{i(n-1)}, a_{i(n-1)}), s_n\}τi={(si1,ai1),(si2,ai2),...,(si(原创 2021-08-17 15:13:51 · 2800 阅读 · 0 评论 -
逆强化学习经典算法复现(一)
**前言:**这篇博客复现的是文章“Algorithms for Inverse Reinforcement Learning”中有限状态空间的Grid World的相关实验,重点是如何将非线性规划模型转化为线性规划模型。环境模型首先,构造环境模型Gridworld,代码如下所示:import numpy as npimport randomimport copyclass MyGirdWorld(object): size = 5 reward_grid = np.zero原创 2021-07-27 16:32:59 · 2039 阅读 · 0 评论 -
逆强化学习论文笔记 (一)
Algorithm for Inverse Reinforcement Learning摘要:这篇文章解决了马尔可夫决策过程中的逆强化学习问题,也就是,从一个给定被观察的、最优的行为中提取出reward function。IRL也许可以帮助apprenticeship learning获得熟练的行为,以及确定由自然系统优化的reward function。我们首先刻画给定最优策略的reward function的集合,然后我们推导出三个IRL的算法。前面两个算法解决知道entire policy的情形;我原创 2021-07-05 19:48:56 · 1065 阅读 · 0 评论