强化学习中马尔科夫决策过程和贝尔曼方程

强化学习的基本原理:


在这里插入图片描述
从强化学习的基本原理可以看出它与其他机器学习算法如监督学习和非监督学习的一些基本差别。 在监督学习和非监督学习中,数据是静态的、不需要与环境进行交互, 比如图像识别,只要给出足够的差异样本,将数据输入深度神经网络中进行训练即可。然而, 强化学习的学习过程是动态的、不断交互的过程, 所需要的数据也是通过与环境不断交互产生的。所以,与监督学习和非监督学习相比,强化学习所涉及的对象更多,比如动作、环境、状态转移概率和回报函数等等。强化学习更像是人的学习过程:人类通过与周围环境交互,学会了走路,奔跑,劳动。 深度学习如图像识别和语音识别解决的是感知问题,强化学习解决的是决策问题。 人工智能的终极目的是通过感知进行智能决策。

通过不断的探索, 提出了一套可以解决大部分强化学习问题的框架,这个框架就是马尔科夫决策过程,简称MDP。 其中的概念有马尔可夫性,马尔科夫过程,马尔科夫决策过程。


策略函数:

表示每个状态到行为的映射。

状态值函数(简称值函数):

表示策略执行之后的状态的值,可以用来评价当前状态的好坏。

状态
状态10.3
状态20.7

状态-行为值函数(简称Q函数):
表示智能体遵循策略 π \pi π 某一状态 下所执行的 特定行为 的最佳程度.

状态行为
状态1行为10.03
状态1行为20.02
状态2行为10.5
状态2行为20.9

在提到值函数V(S)或Q函数Q(S,a)时,实际上是指如上所述的值表和Q表。

值函数与状Q函数的区别:
值函数是确定状态的最佳程度,而Q函数是确定每一状态下行为的最佳程度。


贝尔曼方程

贝尔曼方程,也被称作动态规划方程, 他是把一个规划问题转化为抽象状态之间的转移问题,求解贝尔曼方程就相当于在寻找选择了什么样的策略到达了当前状态。
贝尔曼方程的重要性在于, 它能让我们将一个状态的值表达成其它状态的值。这意味着,如果我们知道 S t + 1 St+1 St+1的值,我们可以很容易计算出 S t S_t St的值。这为计算每个状态值的迭代方法打开了大门,因为如果我们知道下一个状态的值,我们就可以知道当前状态的值。最后,随着Bellman方程(贝尔曼方程)的出现,我们可以开始研究如何计算最优策略

那么,求解值函数和Q函数的最优贝尔曼方程,我们就可以找出最优的策略。

目前使用两种特殊的动态规划算法来寻找最优策略:

  • 值迭代
  • 策略迭代

马尔可夫过程与马尔科夫决策过程:


一直被这两个名词搞混淆,初步以为是字打错了…
.
进一步学习后发现,马尔科夫决策过程具有马尔可夫性,而马尔可夫过程说的是系统的下一个状态s_(t+1)仅与当前状态s_t有关,而与之前的状态无关,即 P ( s t + 1 ∣ s t ) = P ( s t + 1 ∣ s 1 , … s t ) P\left(s_{t+1} \mid s_{t}\right)=P\left(s_{t+1} \mid s_{1}, \ldots s_{t}\right) P(st+1st)=P(st+1s1,st)

马尔科夫决策过程在状态的基础上包含了动作,即 P s s ′ a = [ s t + 1 = s ′ ∣ s t = s , A t = a ] P_{s s^{\prime}}^{a}=\left[s_{t+1}=s^{\prime} \mid s_{t}=s, A_{t}=a\right] Pssa=[st+1=sst=s,At=a]


相关内容推荐:

[1]. 强化学习–值函数
[2]. 基于值函数逼近的强化学习方法
[3]. Policy gradient 算法思想
[4]. 马尔科夫决策过程

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值