强化学习概览

最新推荐文章于 2021-10-12 22:15:00 发布

coco_1998_2

最新推荐文章于 2021-10-12 22:15:00 发布

阅读量97

点赞数 1

分类专栏：人工智能文章标签：强化学习

人工智能专栏收录该内容

26 篇文章 1 订阅

订阅专栏

强化学习和传统的supervised learning有啥区别，为什么需要强化学习

传统supervised learning的场景，是人可以知道明确答案的，比如图片分类等，这样才能训练集去supervise机器但是有些问题，人也无法决定如何做事正确答案，比如玩游戏，这是就需要强化学习，通过经验去试错

强化学习，可以这样分类:

首先是Model-based和model-free，
model-based就是对环境有先验知识，比如下围棋，你读过棋谱，知道规则，那么你可以对环境后续的变化做出预判
model-free就是比较盲目的，不了解环境，只能试错。显然model-based的效率要好，但是很多场景没办法model-based，因为你确实也没有先验知识。

在Model-free里面，又分成Policy-based和Value-based

我们上面说强化学习的目标，就是学习policy，即即state和action的匹配关系所以Policy-based的方法，是比较直接的方法，我把Actor/policy作为一个function，那么只要学习出这个function，问题就解决了。

在Policy-based里面又可以分成on-policy和off-policy，一般看到的都是on-policy，就是和环境互动的agent就是学习agent本身
off-policy，和环境互动的agent和学习agent分开，不是同一个。

而Value-based的方法，比较曲折，直接学习出policy function比较抽象，换个思路，学习一个critic，它会评价在某个state下的每个action。

如果能学习出critic，那我们就可以通过他的评价，来选择最好的action，这个问题也就解决了。Q-learning就是典型的Value-based的方法。

Imitation learning

有些场景下，不太好定义出reward，比如说自动驾驶或chatbot。如果不能明确定义出reward function，我们就无法用RL去训练。

这时的思路，就是imitation learning，意思是用expert的示范来告诉你应该怎么做，比如比较典型的是自动驾驶，通过看大量人类驾驶的录影来学习。这里最直观的就behavior cloning，即expert怎么做，你照搬就好，这就是典型的supervised学习。

这个方法的缺点，就是会有盲区，如果没有看到过这个场景的例子，机器会不知道该怎么办，比如人开车很少会撞墙，所以机器当快撞墙时，就没有经验可以借鉴。第二个缺点，就是expert并不是所有的行为都是有用的，或有益的，而单纯的clone这些行为是没有意义的。所以比较科学的方法，加做Inverse Reinforcement Learning。

普通的RL，是通过定义reward function，来训练出actor，而如果我们不知道reward function，就需要先通过一堆demonstration来找到真正的reward function。

coco_1998_2

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习概览

强化学习和传统的supervised learning有啥区别，为什么需要强化学习传统supervised learning的场景，是人可以知道明确答案的，比如图片分类等，这样才能训练集去supervise机器但是有些问题，人也无法决定如何做事正确答案，比如玩游戏，这是就需要强化学习，通过经验去试错强化学习，可以这样分类:首先是Model-based和model-free，mo...
复制链接

扫一扫

专栏目录