模仿学习笔记:行为克隆

1 模仿学习

  • 模仿学习 (Imitation Learning) 不是强化学习,而是强化学习的一种替代品。
  • 模仿学习与强化学习有相同的目的:
    • 两者的目的都是学习策略网络,从而控制智能体。
  • 模仿学习与强化学习又有不同的原理:
    • 模仿学习向人类专家学习,目标是让策略网络做出的决策与人类专家相同;
    • 强化学习利用环境反馈的奖励改进策略,目标是让累计奖励(即回报)最大化。

2 行为克隆概述

  • 行为克隆 (Behavior Cloning) 是最简单的模仿学习。
  • 行为克隆的目的是模仿人的动作,学出一个随机策略网络 π(a|s; θ) 或者确定策略网络 µ(s; θ)
  • 虽然行为克隆的目的与强化学习中的策略学习类似,但是行为克隆的本质是监督学习(分类或者回归),而不是强化学习。
  • 行为克隆通过模仿人类专家的动作来学习策略,而强化学习则是从奖励中学习策略。
模仿学习需要一个事先准备好的数据集,由(状态,动作)这样的二元组构成,记作:

         其中 sj 是一个状态,而对应的 aj 是人类专家基于状态 sj 做出的动作。(aj就是行为克隆遇到状态sj时,应该做出的动作)

        可以把 sj aj 分别视作监督学习中的输入和标签。

3  连续控制问题+行为克隆 【类比:有监督回归问题】

强化学习笔记:连续控制 & 确定策略梯度DPG_UQI-LIUWJ的博客-CSDN博客中的DPG策略网络是一样的

      行为克隆用回归的方法训练确定策略网络。训练数据集 X 中的二元组 (s, a) 的意思

是基于状态 s ,人做出动作 a 。行为克隆鼓励策略网络的决策 µ ( s ; θ ) 接近人做出的动作
a
       
        于是我们定义损失函数
        损失函数越小,说明策略网络的决策越接近人的动作。【相比于DPG,这里时有了一个ground truth的动作,所以就和监督学习一样直接可以计算loss;而DPG这类强化学习的任务则是需要将决策网络的输出送到value network中,才会有可以判断好坏的奖励】
        
        使用梯度下降更新θ

3.1 训练流程

 

4 离散控制问题+行为克隆【类比:有监督分类问题】

此时的策略网络和强化学习笔记:policy learning_UQI-LIUWJ的博客-CSDN博客中的类似

         行为克隆把策略网络 π(a|s; θ) 看做一个多类别分类器,用监督学习的方法训练这个分类器。

        把训练数据集 X 中的动作 a 看做类别标签,用于训练分类器。需要对类别标签 a One-Hot 编码,得到 |A| 维的向量,记作粗体字母 a¯

        和有监督学习中的分类问题一样,我们用交叉熵来衡量策略网络输出和ground truth分布之间的区别

        

        我们同样用梯度下降更新参数

 

4.1 训练流程

 

5 强化学习 VS 行为克隆

行为克隆强化学习
不需要与环境交互,而是利用事先准备好的数据集,用人类的动作指导策略网络的改进,目的是让策略网络的决策更像人类的决策。
让智能体与环境交互,用环境反馈的奖励指导策略网络的改进,目的是最大化回报的期望。

本质上是监督学习,不是强化学习

——>离散动作:分类

——>连续动作:回归

隆训练出的策略网络通常效果不佳。
——>人类不会探索奇怪的状态和动作,因此数据集上的状态和动作缺乏多样性。
——> 在数据集上做完行为克隆之后,智能体面对真实的
环境,可能会见到陌生的状态,智能体的决策可能会很糟糕。
行为克隆存在“错误累加” 的缺陷。
假如当前智能体的决策a_t不够好
——>那么下一时刻的状态s_{t+1}可能会比较罕见
——>于是智能体的决策a_{t+1} 会很差
——>这又导致状态s_{t+2}非常奇怪
——>使得决策 a_{t+2}更糟糕
行 为克隆训练出的策略常会进入这种恶性循环。
强化学习效果通常优于行为克隆。
如果用强化学习,那么智能体探索过各种各样的 状态,尝试过各种各样的动作,知道面对各种状态时应该做什么决策。
智能体通过探索, 各种状态都见过,比行为克隆有更多的“人生经验”,因此表现会更好。
行为克隆的优势在于离线训练,可以避免与真实环境的交互,不会对环境产生影响。
可以先用行为克隆初始化策略网络,而不是随机初始化,然后再做
强化学习,这样可以减小对物理世界的有害影响。
强化学习的一个缺点在于需要与环境交互,需要探索,而且会改变环境。
如果在真实物理世界应用强化学习,要考虑初始化和探索带来的成 本。

  • 9
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
### 回答1: Spark SQL是Apache Spark中的一个模块,它提供了一种基于结构化数据的编程接口。Spark SQL可以让用户使用SQL语句来查询数据,也可以让用户使用DataFrame API来进行数据处理和分析。Spark SQL支持多种数据源,包括Hive、JSON、Parquet等。Spark SQL还提供了一些高级功能,如支持用户自定义函数、支持分布式机器学习算法等。Spark SQL的目标是让用户能够方便地使用Spark进行数据处理和分析,同时提供高性能和可扩展性。 ### 回答2: Spark SQL是一个基于Spark平台的关系型数据处理引擎,它支持使用SQL语句和数据框架操作数据,可以轻松处理结构化和半结构化的数据。它可以从多个数据源中读取数据,包括Hive、JSON、Parquet、ORC等。通过Spark SQL,用户可以方便地使用SQL查询语言来分析和处理数据,大大降低了开发和组织数据流的难度。 Spark SQL主要有两种执行模式:SQL查询和DataFrame操作。其中SQL查询基于Hive的SQL语法解析器,支持HiveQL中的大多数语言特性(如UDF、窗口函数等)。在执行计划生成时,Spark SQL采用了Spark的计算引擎,支持各种Spark算子的优化,以便最大程度地提高查询性能。 另一种操作模式是使用DataFrame API,它可以灵活地进行数据转换和处理,并提供了类似于SQL的语法。与SQL查询不同,DataFrame API通过静态检查和编译器优化来避免由SQL查询引起的语法错误和潜在性能问题。 除了这两种基本的操作模式外,Spark SQL还提供了一些高级特性,如嵌套查询、表和视图、共享变量等。这些特性扩展了Spark SQL的功能,使得它可以更加灵活地进行数据处理和查询。 Spark SQL是Spark的重要组成部分,它在数据存储和处理方面提供了很多便利。通过最大程度地利用Spark引擎的优势,Spark SQL能够处理海量数据,并将其转换为有用的信息。这使得Spark SQL成为实现数据分析、机器学习和人工智能的重要工具之一。 ### 回答3: Spark SQL是一种基于Spark平台的数据处理引擎,它提供了高度优化的查询引擎和优秀的支持SQL语句的API。它允许用户使用SQL语句查询来处理大规模数据集,同时仍然支持复杂数据类型和计算。Spark SQL支持数据源,包括Parquet,Avro,JSON等一系列结构化的和半结构化的数据源。 Spark SQL在历史上是一个单独的模块,在Spark 2.0之后,它已经成为Spark的核心组件之一,可以直接在Spark核心API中使用,包括作为一个RDD库或DataFrame/DataSet的API。 Spark SQL的优点如下: 1. 它可以向受过传统SQL培训的用户展示更高级别,更强大的API。 2. 它提供数据集和RDD的良好互操作性。Spark SQL可以通过未被优化的RDD/DataSet API访问同一数据。 3. 它支持Spark的执行引擎以加速查询处理。 使用Spark SQL的时候,可以根据需要选择编程语言,如Scala,Java,Python,SQL等。在Spark核心API中,Spark SQL提供了两种API来处理结构化数据: 1. DataFrame API:DataFrame是具有许多操纵数据的功能的分布式数据集,类似于数据库中的表。 2. Dataset API:Dataset是Scala和Java API,它是类型安全的,并且提供与RDD API相同的API,但比RDD具有更好的性能和可读性。 Spark SQL是Spark生态系统中重要的组成部分之一。在处理大规模数据时,使用Spark SQL可以方便地利用Spark的强大功能,提高处理效率。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UQI-LIUWJ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值