强化学习-------马尔科夫决策过程

重点:就是要得出策略,因此需要知道V*,因此需要知道V。然后有两种迭代方式求解,一是值迭代,而是策略迭代。

对于Q函数,V函数的理解,可以通过那两个树状图理解比较容易;另外选择动作a后,到达s‘是有一定的概率的,不是选了a,s’就确定了,而是以一定的概率。

 

  • 为什么要讲马尔科夫决策过程?因为几乎所有的强化学习问题都可以表述成马尔科夫决策过程(MDP)的形式,比如说:最优控制主要是处理连续MDP问题、任何部分可观测的问题都可以转化为MDP问题、bandits都是仅有一个状态的MDP问题。这里的bandit是一种最为简单的马尔科夫问题:给你一组actions,然后你选择一个action,从而得到reward,仅此而已。
  • 马尔可夫决策过程是基于马尔可夫过程理论的随机动态系统的最优决策过程,是强化学习理论中最基本的一个基本假设。
  • 马尔可夫决策过程同马尔科夫链(MC)、隐马尔可夫模型(HMM)一样具有马尔可夫性(无后效性),也就是指系统的下个状态只与当前状态信息有关,而与更早之前的状态无关。
  • 而不同的是MDP不仅考虑状态信息,还会考虑动作,即系统下个状态不仅和当前的状态有关,也和当前采取的动作有关,而与之前的状态、行为无关。

 

 

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值