强化学习之概述

本文介绍了强化学习的基础知识,包括其定义、与监督学习和非监督学习的区别、应用案例及核心组成。强调了奖励、状态和动作的重要性,以及智能体的策略、值函数和模型在强化学习中的角色。同时,讨论了强化学习的分类和关键概念,如探索与利用的平衡,以及规划与强化学习的关系。
摘要由CSDN通过智能技术生成

什么是强化学习?

  1. 面向智能体的学习–通过与一个环境进行交互来实现目标
  2. 通过试错和优化进行学习–用试错后的奖励(或惩罚)进行学习

强化学习 vs 其他机器学习

  • 机器学习

    • 监督学习:有即时标签的学习(如分类,回归等)

      监督学习要求带标签的数据,这些数据是比较昂贵的
      标注数据也是一门学问

    • 非监督学习:无标签学习(聚类问题等)

      无标签数据的数量非常庞大且容易获得

    • 强化学习:有延迟奖励的学习问题,介于监督与非监督之间

      即时的奖励:如果分错了,只告诉你错了
      延迟的奖励:等全部分类完毕之后,告诉总分数如何

监督学习本质上可以认为是强化学习的一种特殊形式(无延迟场景)
强化学习更贴近人类的学习过程
强化学习可能是通往通用人工智能的道路,目前人工智能都是弱人工智能

强化学习的应用案例


这里写图片描述

强化学习整体结构


这里写图片描述

强化学习整体结构由环境,智能体及之间的交互组成,每个时刻t:

  • 智能体执行动作 At A t ,并在环境中得到观测值 Ot O t 和奖励值 Rt R t

  • 环境会对智能体的动作 At A t 做出反应,然后送出新的观测值 Ot+1 O t + 1 和奖励值 Rt+1 R t + 1

  • 智能体是指强化学习需要优化的部分,是我们能够精确控制的部分
  • 环境是我们不能直接控制的部分
  • 区分智能体和环境是强化学习的第一步,不同的问题,智能体和环境的划分也有所不同

强化学习的组成

强化学习主要包括三个要点:奖励,状态和动作。

奖励

奖励是强化学习的核心,可以没有观测,但是不能没有奖励。奖励是强化学习区别其他机器学习的标志特征。奖励的特点包括:

  • 奖励 Rt R t 是一个标量反馈
  • 奖励衡量了智能体在时间t上做得有多好
  • 智能体的目标就是最大化累计奖励
  • 强化学习的目标就是最大化期望累计奖励

举例:

  • 无人机和无人车控制
    +奖励:如果按预定轨迹运行
    -奖励:碰撞或翻车

  • 下围棋
    +奖励:赢了
    -奖励:输了

注:奖励并不要求一定要有正有负,只有正的奖励和负的奖励就可以,因为看的是相对值

长期奖励

每一个动作都有可能是一个长期的结果,奖励可能有延迟,有时我们需要牺牲一些短期奖励来获取更多长期的奖励,比如下围棋,只有在最后才能获得奖励

奖励值与回报值

回报值
当智能体在时间t做出动作 At A t 时,会在未来收到奖励序列{ Rt R t ,

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值