David Silver《Reinforcement Learning》课程解读—— Lecture 1: Introduction to Reinforcement Learning

David Silver《Reinforcement Learning》课程解读—— Lecture 1: Introduction to Reinforcement Learning

前段时间学习了UCL讲师、AlphaGo项目的主程序员David Silver的课程Reinforcement Learning,手写了30多页学习笔记,可以说学得很浅,整个知识网络掌握得不够有连贯性,为了将整个课程的体系做一个梳理,写下此篇博文。课程ppt和视频资料在网上很容易搜索,此处不再提供。

课程目录:

  • Lecture 1: Introduction to Reinforcement Learning
  • Lecture 2: Markov Decision Processes
  • Lecture 3: Planning by Programming
  • Lecture 4: Model-Free Prediction
  • Lecture 5: Model-Free Control
  • Lecture 6: Value Function Approximation
  • Lecture 7: Policy Gradient
  • Lecture 8: Integrating Learning and Planning
  • Lecture 9: Exploration and Exploitation
  • Lecture 10: Calssic Games

Lecture 1: Introduction to Reinforcement Learning

1. About Reinforcement Learning

  • 不需要监督,有一个reward signal。
  • 强化学习中没有监督学习中的有标记样本,即没有人直接告诉机器在什么状态下该做什么动作,只有等到最终结果揭晓,才能通过“反思”之前的动作是否正确来进行学习,因此强化学习可以看作具有“延迟标记信息”的监督学习问题。
  • 智能体的行为会影响它随后收到的反馈。
  • 学习的目的就是要找到能使得长期累积奖赏最大化的策略。

2. The Reinforcement Learning Problem

  • Rewards

    1. Rt是一个标量反馈信号。
    2. 反映了智能体在时刻t行为得好坏。
    3. 智能体的目的即最大化累积回报。
    4. RL式基于回报假设:所有目标都可以表示为最大化期望累计回报。
  • Sequential Decision Making 连续决策

    1. 目的:挑选动作行为来最大化将来的累计回报。
    2. 牺牲立即回报来获得更多的长期回报。
  • Environment 环境
    这里写图片描述

    1. 如图所示,每一步,对于agent都有:

      • 计算动作 At
      • 接收观察 Ot
      • 接收常量回报 Rt
    2. 对于environment都有:

      • 接收行为 At
      • 发出观察 Ot
      • 发出常量回报 Rt
  • State 状态

    1. history与state不同,前者式一系列观察值/行为/回报所构成的集合,后者是只用于决定下一刻发生事件的信息。

    2. 环境状态

      • Set 用于挑选下一刻观察值和回值的信息,通常对智能体不可见。
    3. 智能体状态

      • Sat 是智能体用于挑选下一个行为的所有信息。
    4. Markov状态

      • St 是Markov当且仅当 P[St+1|St]=P[St+1|S1,S2,S3,St] ,即随机过程的某事件只取决于它的上一事件,与初始状态无关。
    5. Fully Obserable Environment

      • 智能体直接观察环境状态: Ot=Sat=Set
      • 这就是一个MDP
    6. Partially Obserable Environment

      • Agent间接观察环境: OtSat
      • 这是一个Partially Observable Markov Decision Process POMDP
  • RL Agent

    1. 组成

      • policy:智能体的行为选择函数
      • value:评价每个状态/动作
      • model:环境的代表
    2. Policy

      • 即agent的表现,是从状态到动作的一个对应关系
      • 确定性策略: a=π(s) ,即根据这个策略,就能知道在状态s下要执行的动作 a=π(s) .
      • 随机策略: π(a|s)=P[At=a|St=s] ,表示状态s下选择动作a的概率,因此有 aπ(a|s)=1 .
    3. Value Function

      • 用于评价状态的好坏,是对将来回报的一个估计。
    4. Model
      • 预测环境接下来要作出的反应, P 预测下一刻状态,R预测下一刻的立即回报。
  • RL Agent 分类

    1. Value Based

      • No Policy
      • Value Function
    2. Policy Based

      • policy
      • No Value Function
    3. Actor Critic
      • Policy
      • Value Function
    4. Model Free

      • Policy and/or Value Function
      • No Model
    5. Model Based

      • Policy and/or Value Function
      • Model

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值