强化学习概览

强化学习和传统的supervised learning有啥区别,为什么需要强化学习

传统supervised learning的场景,是人可以知道明确答案的,比如图片分类等,这样才能训练集去supervise机器但是有些问题,人也无法决定如何做事正确答案,比如玩游戏,这是就需要强化学习,通过经验去试错

 

强化学习,可以这样分类:

首先是Model-based和model-free,
model-based就是对环境有先验知识,比如下围棋,你读过棋谱,知道规则,那么你可以对环境后续的变化做出预判
model-free就是比较盲目的,不了解环境,只能试错。显然model-based的效率要好,但是很多场景没办法model-based,因为你确实也没有先验知识。

 

在Model-free里面,又分成Policy-based和Value-based

我们上面说强化学习的目标,就是学习policy,即即state和action的匹配关系所以Policy-based的方法,是比较直接的方法,我把Actor/policy作为一个function,那么只要学习出这个function,问题就解决了。

在Policy-based里面又可以分成on-policy和off-policy,一般看到的都是on-policy,就是和环境互动的agent就是学习agent本身
off-policy,和环境互动的agent和学习agent分开,不是同一个。

而Value-based的方法,比较曲折,直接学习出policy function比较抽象,换个思路,学习一个critic,它会评价在某个state下的每个action。

如果能学习出critic,那我们就可以通过他的评价,来选择最好的action,这个问题也就解决了。Q-learning就是典型的Value-based的方法。

 

Imitation learning

有些场景下,不太好定义出reward,比如说自动驾驶或chatbot。如果不能明确定义出reward function,我们就无法用RL去训练。

这时的思路,就是imitation learning,意思是用expert的示范来告诉你应该怎么做,比如比较典型的是自动驾驶,通过看大量人类驾驶的录影来学习。这里最直观的就behavior cloning,即expert怎么做,你照搬就好,这就是典型的supervised学习。

这个方法的缺点,就是会有盲区,如果没有看到过这个场景的例子,机器会不知道该怎么办,比如人开车很少会撞墙,所以机器当快撞墙时,就没有经验可以借鉴。第二个缺点,就是expert并不是所有的行为都是有用的,或有益的,而单纯的clone这些行为是没有意义的。所以比较科学的方法,加做Inverse Reinforcement Learning。

普通的RL,是通过定义reward function,来训练出actor,而如果我们不知道reward function,就需要先通过一堆demonstration来找到真正的reward function。

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值