李宏毅机器学习笔记第17周_概述增强式学习(Reinforcement Learning)


一、What is RL?

1.Step 1: Function with Unknown

如下图所示,这是一个Policy Network的结构,输入是游戏画面,输出是下一步移动方式的概率,然后根据概率随机决定下一步的移动方式。
在这里插入图片描述

2.Step 2: Define “Loss”

如下图所示,一个游戏画面会产生一个reward,此过程反复进行,然后把所有的reward相加起来得到Total Reward,并对Total Reward取最大化,将它乘上-1作为Network的Loss Function。
在这里插入图片描述

3.Step 3: Optimization

如下图所示,这是Optimization的操作步骤,找一个Network的参数使R(所有reward的总和)取到最大。
在这里插入图片描述

二、Policy Gradient

1.How to control your actor

1) 如下图所示,有两种情况。如果采取一个固定的行为,我们就使损失函数越小越好;如果不采取一个行为,我们就使损失函数越大越好,然后对它乘上-1。
在这里插入图片描述
2) 如下图所示,收集一大堆训练资料,然后定义一个Loss Function,去训练Actor后取最小化的θ。
在这里插入图片描述

2.Policy Gradient

如下图所示,把训练资料拿来训练后,只能更新一次参数,下一次更新参数,需要重新把训练资料再拿来训练。
在这里插入图片描述

3.On-policy v.s. Off-policy

如下图所示,介绍了On-policy和Off-policy,在On-policy的过程中,θ(i)是不能用θ(i-1)的训练资料,但在Off-policy的过程中,θ(i)是可以用θ(i-1)的训练资料,这样就可以节省时间。
在这里插入图片描述

4.Proximal Policy Optimization

进行训练的Actor必须要了解到它与Actor的差异才能够去互动。

5.Collection Training Data: Exploration

如下图所示,在收集资料时,actor需要具有随机性,有些时候我们还会特意加大模型中的随机性。
在这里插入图片描述

三、Actor-Critic

1.Critic

Critic就是去评估actor做得怎样。如下图所示,Critic是考虑了s范围的情况下,评估actor做得怎样,而Value function得到的值取决于actor θ和s。
在这里插入图片描述

2.How to estimate (s)

1)第一种方法是Monte-Carlo (MC) based approach,先把θ与环境进行互动多轮,得到训练资料来训练Value function,如果输入是Sa,那么就希望输出与Ga越接近越好。
在这里插入图片描述
2)第二种方法是Temporal-difference (TD) approach,它可以不用完成整场比赛就可以更新参数。
在这里插入图片描述

3.MC v.s. TD

如下图所示, 举例说明MC和TD的情况。
在这里插入图片描述

4.Tip of Actor-Critic

如下图所示,Actor和Critic都是Network,它们是可以共用参数的。
在这里插入图片描述

四、Reward Shaping

1.Sparse Reward

如下图所示,这里举一个机器手臂拧螺丝的例子。拧螺丝过程中每一步的reward都是0,直到拧完结束才知道reward的值,因此这里需要定义额外的reward来指导。
在这里插入图片描述

2.Reward Shaping-Curiosity

Curiosity的意思就是指机器要对新事物感兴趣,对有意义的事物加分。

五、No Reward: Learning from Demonstration

1.Motivation

如下图所示,人类给机器定义了3条reward,但是机器会采取人类意想不到的行为,会不受人类的控制,因此需要用到Imitation Learning。
在这里插入图片描述

2.Imitation Learning

Imitation Learning是不产生reward,而是让人类里面的专家和环境互动作为示范,然后让机器来模仿行为。
在这里插入图片描述

3.Inverse Reinforcement Learning

Inverse Reinforcement Learning中没有reward,而是把专家和环境地互动去学出一个Reward Function,然后用Reward Function去训练actor。这里的Reward Function可能是比较简单的,但训练出来的actor却是比较复杂的。
在这里插入图片描述

4.Framework of RL

如下图所示,老师和actor都会产生对应的trajectory,然后产生Reward Function(让老师得到的分数总是高于actor),反复进行这个循环,就可以根据Reward Function产生新的actor去代替原来的actor。
在这里插入图片描述


  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值