李宏毅机器学习笔记第17周_概述增强式学习(Reinforcement Learning)

本文深入探讨了强化学习的基础,包括Policy Gradient方法、On-policy与Off-policy的区别,重点讲解了Actor-Critic算法的工作原理及其实现技巧,如Critic的评估作用和Value Function的估计方法。此外,还讨论了奖励塑造和无奖励学习,如Curiosity驱动和Learning from Demonstration的概念。
摘要由CSDN通过智能技术生成


一、What is RL?

1.Step 1: Function with Unknown

如下图所示,这是一个Policy Network的结构,输入是游戏画面,输出是下一步移动方式的概率,然后根据概率随机决定下一步的移动方式。
在这里插入图片描述

2.Step 2: Define “Loss”

如下图所示,一个游戏画面会产生一个reward,此过程反复进行,然后把所有的reward相加起来得到Total Reward,并对Total Reward取最大化,将它乘上-1作为Network的Loss Function。
在这里插入图片描述

3.Step 3: Optimization

如下图所示,这是Optimization的操作步骤,找一个Network的参数使R(所有reward的总和)取到最大。
在这里插入图片描述

二、Policy Gradient

1.How to control your actor

1) 如下图所示,有两种情况。如果采取一个固定的行为,我们就使损失函数越小越好;如果不采取一个行为,我们就使损失函数越大越好,然后对它乘上-1。
在这里插入图片描述
2) 如下图所示,收集一大堆训练资料,然后定义一个Loss Function,去训练Actor后取最小化的θ。
在这里插入图片描述

2.Policy Gradient

如下图所示,把训练资料拿来训练后,只能更新一次参数,下一次更新参数,需要重新把训练资料再拿来训练。
在这里插入图片描述

3.On-policy v.s. Off-policy

如下图所示,介绍了On-policy和Off-policy,在On-policy的过程中,θ(i)是不能用θ(i-1)的训练资料,但在Off-policy的过程中,θ(i)是可以用θ(i-1)的训练资料,这样就可以节省时间。
在这里插入图片描述

4.Proximal Policy Optimization

进行训练的Actor必须要了解到它与Actor的差异才能够去互动。

5.Collection Training Data: Exploration

如下图所示,在收集资料时,actor需要具有随机性,有些时候我们还会特意加大模型中的随机性。
在这里插入图片描述

三、Actor-Critic

1.Critic

Critic就是去评估actor做得怎样。如下图所示,Critic是考虑了s范围的情况下,评估actor做得怎样,而Value function得到的值取决于actor θ和s。
在这里插入图片描述

2.How to estimate (s)

1)第一种方法是Monte-Carlo (MC) based approach,先把θ与环境进行互动多轮,得到训练资料来训练Value function,如果输入是Sa,那么就希望输出与Ga越接近越好。
在这里插入图片描述
2)第二种方法是Temporal-difference (TD) approach,它可以不用完成整场比赛就可以更新参数。
在这里插入图片描述

3.MC v.s. TD

如下图所示, 举例说明MC和TD的情况。
在这里插入图片描述

4.Tip of Actor-Critic

如下图所示,Actor和Critic都是Network,它们是可以共用参数的。
在这里插入图片描述

四、Reward Shaping

1.Sparse Reward

如下图所示,这里举一个机器手臂拧螺丝的例子。拧螺丝过程中每一步的reward都是0,直到拧完结束才知道reward的值,因此这里需要定义额外的reward来指导。
在这里插入图片描述

2.Reward Shaping-Curiosity

Curiosity的意思就是指机器要对新事物感兴趣,对有意义的事物加分。

五、No Reward: Learning from Demonstration

1.Motivation

如下图所示,人类给机器定义了3条reward,但是机器会采取人类意想不到的行为,会不受人类的控制,因此需要用到Imitation Learning。
在这里插入图片描述

2.Imitation Learning

Imitation Learning是不产生reward,而是让人类里面的专家和环境互动作为示范,然后让机器来模仿行为。
在这里插入图片描述

3.Inverse Reinforcement Learning

Inverse Reinforcement Learning中没有reward,而是把专家和环境地互动去学出一个Reward Function,然后用Reward Function去训练actor。这里的Reward Function可能是比较简单的,但训练出来的actor却是比较复杂的。
在这里插入图片描述

4.Framework of RL

如下图所示,老师和actor都会产生对应的trajectory,然后产生Reward Function(让老师得到的分数总是高于actor),反复进行这个循环,就可以根据Reward Function产生新的actor去代替原来的actor。
在这里插入图片描述


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值