【强化学习】task2 马尔科夫决策过程


目录
在这里插入图片描述
待补充。。。。。

第二章

马尔科夫决策是强化学习中最常见的一种框架

在这里插入图片描述

2.1 马尔科夫链

一个状态满足马尔科夫转移指的是对于一个状态只取决于它前一个的状态而与其他状态无关
在这里插入图片描述
图中描述了一个状态到达其他状态的概率在这里插入图片描述
对于上面这样的一个图可以用状态转移矩阵来表示
每一行代表了从一个节点到达其他节点的概率
在这里插入图片描述
马尔科夫例子在这里插入图片描述

2.2 马尔科夫奖励过程

马尔科夫奖励过程=马尔科夫链+马尔科夫奖励过程
多了奖励函数和discount factor
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
为什么需要discount factor
在这里插入图片描述
计算MRP例子,只有第一个状态和第七个状态有奖励
注意计算时候的概率不同
在这里插入图片描述
bellman equation

在这里插入图片描述
在这里插入图片描述
写成矩阵的形式,注意复杂度为N的三次方,所以只能适合小的数据
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.3 马尔科夫决策过程

注意红字
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
d
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.4 马尔科夫链马尔科夫奖励马尔科夫决策区别

左边是马尔科夫链 右边是马尔科夫决策过程
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值