David Silver强化学习笔记-Lecture 2: Markov Decision Processes

本文详细介绍了马尔科夫决策过程(MDP)的基础知识,包括马尔科夫过程的定义、马尔科夫属性、状态转移矩阵;马尔科夫奖励过程(MRP)的概念、价值函数、折扣因子的作用;以及MDP的定义、策略、贝尔曼方程。通过学生行为的示例,解释了MDP如何描述环境并求解最优策略。
摘要由CSDN通过智能技术生成

Lecture 2: Markov Decision Processes(马尔科夫决策过程)

一、Marokov Process

(一)Introduction

Introduction to MDPs
  • 马尔可夫决策过程正式描述了强化学习的环境
    我们希望有一些对环境的描述。MDP可以对环境进行描述
  • 环境是完全可观测的
  • 也就是说当前状态完全特征化了过程
    被告知给agent的state在某种程度上特征化了整个环境展开的过程,环境的变化是依赖于一些state的,state是完全可观测的
  • 所有的RL问题都可以形式化为MDPS,例如:
    • 最佳控制主要处理连续的MDP
    • 可以将部分可观察到的问题转换为MDP
    • 老虎机问题是单个状态的MDPs
      在某些时刻,你拥有一些actions的集合,你需要采取一个action,然后就可以得到该action对应的reward,之后任务就完成了。

(二)Markov Property(马尔科夫属性)

“The future is independent of the past given the present”
在这里插入图片描述

  • 状态从历史中捕获所有相关信息
  • 知道状态后,历史可能会被丢弃
  • 即,状态是对未来的充分统计
State Transition Matrix(状态转移矩阵)

对于马尔可夫状态s和后继状态s‘,状态转移概率定义为:
在这里插入图片描述
状态转移矩阵P定义了从所有状态s到所有后继状态s’的转移概率,
在这里插入图片描述
矩阵的每一行总和为1。

我们当前所处的state特征化了接下来会发生的一切,这就意味着,有一些良好定义的转移概率会告诉我,如果我之前处在这种state,就会有对应的一些概率值指出,在那种状态下我就将以一定概率值转移到一定的后继状态。例如:有一个机器人,我推了他一下,他有一定概率摔倒,或有一定概率向前走一步,这取决于之前所处的状态。

(三)马尔科夫链

Markov Process定义

马尔可夫过程是无记忆的随机过程,即具有Markov属性的一系列随机状态S1,S2 …
在这里插入图片描述
马尔科夫过程(或马尔科夫链)是一个元组,<S,P>

  • S 是一组有限的状态
  • P 是状态转移概率矩阵
Example: Student Markov Chain

在这里插入图片描述

Example: Student Markov Chain Episodes

从S1 = C1开始的学生马尔可夫链样本集
S1, S2, …, ST
在这里插入图片描述

Example: Student Markov Chain Transition Matrix

在这里插入图片描述
有个这个矩阵后我们可以重复从这个矩阵中进行取样。

二、Markov Reward Process

(一)定义

马尔可夫奖赏过程是具有价值的马尔可夫链
带有value判断的Markov Process,value会告诉我们这个状态有多好。即对于一些从某个Markov Process取样得到的特定的序列,他们已经累计的多少reward。
在这里插入图片描述
R是当前时刻从状态S得到多少immediate reward,我们关心的是最大化累计的rewards。

(二)Example: Student MRP

在这里插入图片描述

(三) Return

在这里插入图片描述
Gt是随机的,Gt只是一个样本,它来自我们的MRP,我们讨论的序列的rewards

  • 折扣值 γ ∈ [ 0 , 1 ] \gamma\in\lbrack0,1\rbrack γ[0,1]
  • 经过k +1个时间步长后获得奖励R的值为 γ k R \gamma^kR γkR
  • 这将immediate reward为高于delayed reward。
    • γ \gamma γ接近0会导致“近视”评估
      越是喜欢现在的reward
    • γ \gamma γ接近0会导致“远视”评估
      我们越不关心现在的reward
为什么要有折扣因子

大多数马尔可夫奖赏和决策过程都被打折。 为什么?

  • 数学上方便
  • 避免循环马尔可夫过程中的无限收益
  • 关于未来的不确定性可能无法完全体现
  • 如果奖励是财务奖励,则即时奖励比延迟奖励可能会获得更多的利息
  • 动物/人类行为显示出对立即奖励的偏好
  • 有时可能会使用未折现的马尔可夫奖励流程(即 γ = 1 \gamma=1 γ=1

即便决策过程本身包含了无限循环,单个sample都会是一个有限的连接,唯一的问题是在哪一步终止
我们没有一个关于环境的完美模型,我们认为我们已经提出了一个很不错的计划,我们认为我们确切知道如何走向未来的步骤,但如果我们不完全相信我们所做的决定,我们不完全相信我们的评估,我们可以选择打折。

(四)Value Function

value就是total reward
值函数v(s)给出状态s的长期值
在这里插入图片描述
MRP的状态值函数v(s)是从状态s开始的预期收益
衡量在状态s可以获得多少reward

Example: Student MRP Returns

学生MRP的return样本(随机取样):
从S1 = C1开始, γ = 1 \gamma=1 γ=1

在这里插入图片描述

Example: State-Value Function for Student MRP (1)

在这里插入图片描述
γ = 0 \gamma=0 γ=0,我们完全不关心除了当前这一步其他时间步的reward

Example: State-Value Function for Student MRP (2)

在这里插入图片描述
γ = 0.9 \gamma=0.9 γ=0.9,我们必须关心所有的state

Example: State-Value Function for Student MRP (3)

在这里插入图片描述
γ = 1 \gamma=1 γ=1,所有的state同等重要

(五)Bellman Equation

Bellman Equation for MRPs

value function可以分解为两部分:

  • 即时奖励
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值