强化学习(2)---马尔科夫决策

需要知道的一些概念

马尔科夫决策过程

马尔科夫链

马尔科夫奖励过程

马尔科夫中的价值函数

马尔科夫决策过程的控制:policy iteration value iteration

image.png

image.png

  • 基于价值函数的agent:不使用决策函数,在价值函数中推测police
  • 基于police的agent:不使用价值函数
  • 两个都用

通过模型使用不同分类:

image.png

image.png

看会否有环境转移模型

  • 马尔科夫决策过程是强化学习的基本框架,环境是全部可以观测
  • 如果说状态转移属于马尔科夫就是说一个状态的下一状态是取决于它当前状态和它当前状态之前的状态没有关系
  • 状态转移矩阵描述状态转移,描述了从一个节点到其他节点的概率

给定状态转移的马尔科夫链之后,可以对链进行采样得到一串轨迹

马尔科夫奖励过程是马尔科夫链加上一个奖励函数

在马尔科夫奖励之中,矩阵和他的状态都是和马尔科夫链一样的,奖励函数是一个期望,当到达某一个状态的时候可以获得多大的奖励,另定义了一个折扣量:discount factor 伽马,折扣量是为了更快

可以将马尔科夫过程看做一个纸船,放在河流中会随着河流动,但是他自身没有动力,决策就像船桨

 

一些概念:

Horizon:说明同一个????没懂

image.png

定义一个return:将后面的奖励进行折扣,越往后折扣越多(希望现在得到奖励而不是后面再得到奖励)

 

image.png

如何定义价值函数?

Monte_Carlo采样:可以定义很多很多过程,通过计算每次通过S4的价值求平均可以估计通过S4状态的价值

Analytic solution(只能针对少量状态时候,因为求逆的时间复杂度太大):

可以从价值函数中推倒出Bellman等式

定义了当前状态和未来状态的关系

image.png

迭代方法:(用来解状态比较多的)

image.png

1.动态规划

TD是动态规划和Monte_Carlo方法的结合

先用解析,解析不行就用迭代

马尔科夫决策过程比马尔科夫奖励过程多了一个决策(decision)

image.png

马尔科夫决策过程转换成马尔科夫链过程

image.png

image.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

浪里摸鱼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值