强化学习蘑菇书学习笔记05

最新推荐文章于 2024-08-02 18:01:48 发布

Kepler_K

最新推荐文章于 2024-08-02 18:01:48 发布

阅读量158

点赞数

分类专栏：蘑菇书学习笔记文章标签：学习人工智能

本文链接：https://blog.csdn.net/kepler_k/article/details/125983903

版权

蘑菇书学习笔记专栏收录该内容

6 篇文章 1 订阅

订阅专栏

第十章稀疏奖励

关键词

reward shaping： 在我们的agent与environment进行交互时，我们人为的设计一些reward，从而“指挥”agent，告诉其采取哪一个action是最优的，而这个reward并不是environment对应的reward，这样可以提高我们estimate Q-function时的准确性。
ICM（intrinsic curiosity module）： 其代表着curiosity driven这个技术中的增加新的reward function以后的reward function。
curriculum learning： 一种广义的用在RL的训练agent的方法，其在input训练数据的时候，采取由易到难的顺序进行input，也就是认为设计它的学习过程，这个方法在ML和DL中都会普遍使用。
reverse curriculum learning： 相较于上面的curriculum learning，其为更general的方法。其从最终最理想的state（我们称之为gold state）开始，依次去寻找距离gold state最近的state作为想让agent达到的阶段性的“理想”的state，当然我们应该在此过程中有意的去掉一些极端的case（太简单、太难的case）。综上，reverse curriculum learning 是从 gold state 去反推，就是说你原来的目标是长这个样子，我们从我们的目标去反推，所以这个叫做 reverse curriculum learning。
hierarchical （分层） reinforcement learning： 将一个大型的task，横向或者纵向的拆解成多个 agent去执行。其中，有一些agent 负责比较high level 的东西，负责订目标，然后它订完目标以后，再分配给其他的 agent把它执行完成。（看教程的 hierarchical reinforcement learning部分的示例就会比较明了）

第十一章模仿学习

关键词

Imitation learning： 其讨论我们没有reward或者无法定义reward但是有与environment进行交互时怎么进行agent的学习。这与我们平时处理的问题中的情况有些类似，因为通常我们无法从环境中得到明确的reward。Imitation learning 又被称为 learning from demonstration (示范学习) ，apprenticeship learning (学徒学习)，learning by watching (观察学习)等。
Behavior Cloning： 类似于ML中的监督学习，通过收集expert的state与action的对应信息，训练我们的network（actor）。在使用时input state时，得到对应的outpur action。
Dataset Aggregation： 用来应对在Behavior Cloning中expert提供不到的data，其希望收集expert在各种极端state下expert的action。
Inverse Reinforcement learning（IRL）： Inverse Reinforcement Learning 是先找出 reward function，再去用 Reinforcement Learning 找出 optimal actor。这么做是因为我们没有环境中reward，但是我们有expert 的demonstration，使用IRL，我们可以推断expert 是因为什么样的 reward function 才会采取这些action。有了reward function 以后，接下来，就可以套用一般的 reinforcement learning 的方法去找出 optimal actor。
Third Person Imitation Learning： 一种把第三人称视角所观察到的经验 generalize 到第一人称视角的经验的技术。