David Silver《Reinforcement Learning》课程解读—— Lecture 1: Introduction to Reinforcement Learning

David Silver《Reinforcement Learning》课程解读—— Lecture 1: Introduction to Reinforcement Learning

前段时间学习了UCL讲师、AlphaGo项目的主程序员David Silver的课程Reinforcement Learning,手写了30多页学习笔记,可以说学得很浅,整个知识网络掌握得不够有连贯性,为了将整个课程的体系做一个梳理,写下此篇博文。课程ppt和视频资料在网上很容易搜索,此处不再提供。

课程目录:

  • Lecture 1: Introduction to Reinforcement Learning
  • Lecture 2: Markov Decision Processes
  • Lecture 3: Planning by Programming
  • Lecture 4: Model-Free Prediction
  • Lecture 5: Model-Free Control
  • Lecture 6: Value Function Approximation
  • Lecture 7: Policy Gradient
  • Lecture 8: Integrating Learning and Planning
  • Lecture 9: Exploration and Exploitation
  • Lecture 10: Calssic Games

Lecture 1: Introduction to Reinforcement Learning

1. About Reinforcement Learning

  • 不需要监督,有一个reward signal。
  • 强化学习中没有监督学习中的有标记样本,即没有人直接告诉机器在什么状态下该做什么动作,只有等到最终结果揭晓,才能通过“反思”之前的动作是否正确来进行学习,因此强化学习可以看作具有“延迟标记信息”的监督学习问题。
  • 智能体的行为会影响它随后收到的反馈。
  • 学习的目的就是要找到能使得长期累积奖赏最大化的策略。

2. The Reinforcement Learning Problem

  • Rewards

    1. Rt是一个标量反馈信号。
    2. 反映了智能体在时刻t行为得好坏。
    3. 智能体的目的即最大化累积回报。
    4. RL式基于回报假设:所有目标都可以表示为最大化期望累计回报。
  • Sequential Decision Making 连续决策

    1. 目的:挑选动作行为来最大化将来的累计回报。
    2. 牺牲立即回报来获得更多的长期回报。
  • Environment 环境
    这里写图片描述

    1. 如图所示,每一步,对于agent都有:

      • 计算动作 At
      • 接收观察 Ot
      • 接收常量回报 Rt
    2. 对于environment都有:

      • 接收行为 At
      • 发出观察 Ot
      • 发出常量回报 Rt
  • State 状态

    1. history与state不同,前者式一系列观察值/行为/回报所构成的集合,后者是只用于决定下一刻发生事件的信息。

    2. 环境状态

      • Set 用于挑选下一刻观察值和回值的信息,通常对智能体不可见。
    3. 智能体状态

      • Sat 是智能体用于挑选下一个行为的所有信息。
    4. Markov状态

      • St 是Markov当且仅当 P[St+1|St]=P[St+1|S1,S2,S3,St] ,即随机过程的某事件只取决于它的上一事件,与初始状态无关。
    5. Fully Obserable Environment

      • 智能体直接观察环境状态: Ot=Sat=Set
      • 这就是一个MDP
    6. Partially Obserable Environment

      • Agent间接观察环境: OtSat
      • 这是一个Partially Observable Markov Decision Process POMDP
  • RL Agent

    1. 组成

      • policy:智能体的行为选择函数
      • value:评价每个状态/动作
      • model:环境的代表
    2. Policy

      • 即agent的表现,是从状态到动作的一个对应关系
      • 确定性策略: a=π(s) ,即根据这个策略,就能知道在状态s下要执行的动作 a=π(s) .
      • 随机策略: π(a|s)=P[At=a|St=s] ,表示状态s下选择动作a的概率,因此有 aπ(a|s)=1 .
    3. Value Function

      • 用于评价状态的好坏,是对将来回报的一个估计。
    4. Model
      • 预测环境接下来要作出的反应, P 预测下一刻状态,R预测下一刻的立即回报。
  • RL Agent 分类

    1. Value Based

      • No Policy
      • Value Function
    2. Policy Based

      • policy
      • No Value Function
    3. Actor Critic
      • Policy
      • Value Function
    4. Model Free

      • Policy and/or Value Function
      • No Model
    5. Model Based

      • Policy and/or Value Function
      • Model

  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
强化学习是一种机器学习方法,它致力于教会智能体在一个动态环境中做出最优决策。在强化学习中,智能体通过不断与环境进行交互来学习,并且根据环境的反馈来调整自己的行为。 强化学习的一个核心概念是“奖励”,它是环境对智能体行为的评价。智能体的目标是通过选择能够最大化长期奖励累积的行为策略来学习。在学习的过程中,智能体通过试错和学习的方法逐步改进自己的决策策略。 强化学习涉及到很多基本元素,比如:状态、动作、策略和价值函数。状态是指代表环境的信息,动作是智能体可以执行的动作选择,策略是智能体根据当前状态选择动作的方法,价值函数是用来评估每个状态或动作的价值。这些元素相互作用,并通过学习算法来更新和改善,使得智能体能够做出更好的决策。 强化学习有很多不同的算法,其中最著名的是Q-learning和Deep Q-Network(DQN)。Q-learning是一种基于值函数的学习方法,它通过不断更新状态-动作对的价值来优化策略。而DQN则是在Q-learning的基础上引入了深度神经网络,使得智能体能够处理更复杂的环境和任务。 总之,强化学习是一种通过交互式学习来教会智能体做出最优决策的方法。它在许多领域有广泛的应用,比如人工智能、自动驾驶、游戏AI等。通过不断的试错和学习,智能体可以不断改进自己的行为策略,达到最优性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值