【David Silver-强化学习笔记】p2、马尔科夫模型

2.1 马尔科夫过程

Markov decision process 是用来对环境建模的模型,这个环境是fully observable的,即便是partially observable也可以转化为MDP。所以在强化学习领域,几乎所有的问题都可以转化为MDP模型。

2.1.1 Markov property

在这里插入图片描述

2.1.2 State Transition Matrix

假如agent有不同的状态,可以用状态转移矩阵,描述了不同状态之间转移的概率。如下图,每一行的概率和为1.
在这里插入图片描述

2.1.3 Definition of Markov Process

在这里插入图片描述
可以把马尔科夫过程描述成状态空间S和转移矩阵组成的二元组

一个简单的例子,学生上课的状态转移图:
在这里插入图片描述
在这里插入图片描述
期间,有学生提问讲,如何应对随着时间的流逝,转移概率变化的情况,David提出的解决方案思路是动态的演变转移图,但这并不改变Markov的结构。

2.2 Markov Reward Process

2.2.1 definition

给马尔科夫过程加上状态转移对应的奖励值。这样将马尔科夫过程扩充为四元组(S,P,R,γ),其中R是即时奖励,γ为discount rate。
在这里插入图片描述

2.2.2 Gt

对于一个trajectory而言,获得的奖励G(李宏毅老师用的A)就是:
在这里插入图片描述

NOTE:此时的Rt并不是期望值。为什么采用折现因子呢?主要是简化循环和对于未来不确定性的考虑。

2.2.3 Value function

在这里插入图片描述

可以看出,无论是G还是V都是指从当前开始计算的奖励值,区别在于G是每一笔数据的值,而V是一个期望值

G以及V的计算:
在这里插入图片描述
上图计算了以C1作为起点的每一笔实验数据的奖励值的计算。下面考虑value-function:
在这里插入图片描述

当γ为0,表示计算奖励值时只考虑当前action带来的奖励值,既不看过去,也不管将来,所以如果上C1,奖励值就是-2,去酒吧奖励值为+1,参加考试并通过就获得奖励+10。

在这里插入图片描述
当γ=0.9时,我们复盘它的计算过程:
1、采样大批数据,基于γ=0.9根据G的公式,计算单笔奖励值。G1,G2…
2、将G数据带入到V的公式计算Value值。

问题:0.9和4.1直接具有计算关系吗?
答:下面的Bellman等式就是讲这个关系。
0.9 = -2 + 0.9 * 0.8 * 4.1 但是显然这组数据有误差。

2.2.4 Bellman Equation

在这里插入图片描述
在这里插入图片描述
其实没有必要对V加期望,因为本身就是G的期望值。关于记法的说明:
第一种:s,a,||r,s,a,||r,s,a,||r…
第二种:s,a,r,||s,a,r,||s,a,r…
第一种记法认为采取action后环境变了,就进入到下一个时间步,之后的所有参数的下标都为t+1。此处的ppt采用第一种记法。有时候David会混用,比如下面。总之理解为即时奖励即可。

问题:假如同一个序列中,不同的时间步对应的同一个S,那么V相等吗?
答:应该是相等的,因为V的计算本来就是大量样本的期望值。

简化写法:
在这里插入图片描述
在这里插入图片描述
因为是线型方程组,解为:
在这里插入图片描述

也就是说,V可以完全由γ,转移矩阵p和不同状态对应的即时奖励期望值R所确定。

2.3 Markov decision process(MDP)

2.3.1 Definition

条件:环境中所有的state都具有马尔科夫属性。定义为:
在这里插入图片描述
需要注意的是,此时转移矩阵和奖励值是计算都加上了action条件

2.3.2 Policy

是state到采取所有可能action的概率的映射。
在这里插入图片描述
可以看出,MDP policy的输出只取决于当前的state,而与历史无关。而且具有时间稳定性:同一种状态即便出现在不同的还时间点,其输出是一样的。
在这里插入图片描述
假如,我们的模型符合MDP,那么其输出的状态序列(S,R) tuple都具有Markov属性。其计算过程需要用到概率论中的加法公式。

2.3.3 Value function

在这里插入图片描述

有两种Value function:分别为对state的评估和对给定state下action的评估。

举例而言:
在这里插入图片描述
计算的过程中只要考虑出度:
-1.3 = [(-2.3-1)+(2.7-2)]/2
2.7 = [(7.4-2)+0]/2

2.3.4 Bellman Expectation Equation

在这里插入图片描述在这里插入图片描述
Note:不管是V还是Q,本身都是G的期望,前面为什么还要加上E呢?
接下来,在两类Value function中构建关系
在这里插入图片描述
解释:V是期望值,是Q的期望值,是s时采取不同action的期望值。
在这里插入图片描述

解释:Q是期望值,是采取action后进入不同state的期望值,是下一个时间步V的期望值乘以折损率 + 即时奖励
将V和Q互相代入,有:
在这里插入图片描述
在这里插入图片描述
以上两幅图:在state确定是时,采取同一个action,可能进入不同的状态。
在这里插入图片描述
Note:此时的去酒吧是一个action而不是一个状态,去过酒吧之后可能会进入3中不同的状态,对应的模型图应该为:
在这里插入图片描述

2.3.5 Bellman Equation 矩阵形式

问题是转移矩阵的概率和policy的概率可以统一吗?可以的,总和为Pπ
在这里插入图片描述
在这里插入图片描述

2.3.6 Optimal Value Function

最明智的policy,基于state可以做出最佳的选择。
在这里插入图片描述
当真的找到optimal function的时候,我么可以说,已经解决了MDP问题。就像回到学生MDP的例子。
在这里插入图片描述
最佳的Value Function示意(即时奖励+下一状态的V),例如在C1可以是5或者6,单取一个最大值,所以是6.
在这里插入图片描述
最佳的Q_function示意图

2.3.7 Optimal Policy

在这里插入图片描述
在这里插入图片描述
最核心的思想就是,选action时,考虑奖励最大化。评估state时,求不同情况的均值。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值