深度强化学习笔记

 这是我在学习datawhale深度主动学习(二)的学习笔记

纯小白第一份笔记,因此思路主要顺的教程,大致讲讲自己的理解,后期在补充完整。

#Task01:马尔可夫过程、DQN算法回顾#

由简入繁,什么是强化学习呢?

        强化学习———智能体怎么在复杂、不确定的环境中最大化它能获得的奖励。强化学习由两部分组成:智能体和环境。智能体和环境之间一直在交互。智能体在环境中获取某个状态后,他会利用该状态输出一个动作,这个动作也称为“决策”。然后这个动作会在环境中被执行,环境会根据智能体采取的动作,输出下一个状态S(t+1),及输出当前这个动作带来奖励R(t+1)。当然惩罚就是负的奖励。强化学习之中智能体的目的就是尽可能多的从环境体中获取奖励。例如玩炉石传说经典对战模式,每回合状态都不一样,根据1不同状态调整策略,但最终两名玩家中获取奖励最多(击杀对方)的玩家胜利,强化学习即怎么实现这个过程。

        强化学习也可以类比试错学习,试错学习包括尝试、错误、结果、学习几个部分。试错学习虽然是强化学习中最鲜明的要素之一,但并不是强化学习的全部,强化学习还包含其它的学习形式例如观察学习(对应模仿学习、离线强化学习等技术)。

强化学习,通过一次次的决策来实现目标,通常目标是最大化积累的奖励,就是说一回合内,经过不断的决策一直到停止积累的奖励,这个过程就是序列决策。

马尔可夫决策过程

        马尔可夫决策过程是强化学习的基本问题模型之一,它能够以数学的形式来描述智能体在与环境交互的过程中学到一个目标的过程。这里智能体充当的是作出决策或动作,并且在交互过程中学习的角色,环境指的是智能体与之交互的一切外在事物,不包括智能体本身。

图1,马尔可夫决策过程中智能体与环境的交互过程

        智能体与环境之间按每个时步t交互,t=0,1,2,3...,在t步,智能体接收到环境处于状态s_{t},然后做出决策实行动作a_{t}。执行完后收到奖励r_{t+1},注意这里是t+1步,因为这个奖励是用来作为t+1步决策的依据,做a_{t}决策时考虑的是上一步的奖励。同时环境也会收到动作 a_{t} 的影响会变成新的状态 s_{t+1},并且在 t+1 时步被智能体观测到。如此循环下去,我们就可以在这个交互过程中得到一串轨迹

s_{0},a_{0},r_{1},s_{1},a_{1},r_{2},...,s_{t},a_{t},r_{t+1}

        在强化学习中我们通常考虑的是有限马尔可夫决策过程( Finite MDP ),即 t 是有限的,这个上限一般用 T 表示,也就是当前交互过程中的最后一个时步或最大步数,从 t=0 和 t+T 这一段时步我们称为一个回合 (episode ).

 马尔可夫性质

        P(s_{t+1}|s_{t})=P(s_{t+1}|s_{0},s_{1},\cdots,s_{t})

        这个公式的意思就是在给定历史状态s0,s1,⋯,st的情况下,某个状态的未来只与当前状态st有关,与历史的状态无关。但是也有一些实际问题不满足马尔可夫性质。这时我们可以用深度学习神经网络来表示当前的棋局,并用蒙特卡洛搜索树等技术来模拟玩家的策略和未来可能的状态,来构建一个新的决策模型。

回报

        马尔可夫决策过程中智能体的目标是最大化累积的奖励。我们可以记为G_{t}

G_{t}=r_{t+1}+r_{t+2}+r_{t+3}+\cdots+r_{T}

表示一周期的回报,当T=\infty

引入折扣因子\gamma,它在0到1之间,表示我们考虑未来奖励的程度。

G_{t}=r_{t+1}+\gamma r_{t+2}+\gamma ^{2}r_{t+3}+\cdots=\sum_{k=0}^{T=\infty }\gamma ^{k}r_{t+k+1}

这样做还有一个好处就是

G_{t}=r_{t}+\gamma G_{t+1}

状态转移矩阵

        满足马尔可夫性质。因此我们可以用一个概率来表示状态之间的切换,比如 P_{12}=P(S_{t+1}=s_{2}|S_{t+1}=s_{1})=0.4 表示当前时步的状态是 s1 ,切换到s2的概率。

        我们把这个概率称为状态转移概率(State Transition Probability)。拓展到所有状态我们可以表示为式 P_{ss{}'}=P(S_{t+1}=s_{}'|S_{t}=s_{})

        写成矩阵的形式,每一行表示s_{i}转移到s_{j}的概率

        这个矩阵就叫做状态转移矩阵(State Transition Matrix)

P_{ss_{}'}=\begin{bmatrix} p_{11} &p_{11} & \cdots & p_{11} \\ p_{11} &p_{11} & \cdots & p_{11} \\ \vdots & \vdots& \ddots & \vdots\\ p_{11} &p_{11} & \cdots& p_{11} \end{bmatrix}

        其中 n 表示状态数,注意对于同一个状态所有状态转移概率加起来是等于 1 的,比如对于状态 s1 来说,p_{11}+p_{12}+p_{13}+\cdots+p_{1n}=1。还有一个非常重要的点就是,状态转移矩阵是环境的一部分,跟智能体是没什么关系的,而智能体会根据状态转移矩阵来做出决策。

        此外,在马尔可夫链(马尔可夫过程)的基础上增加奖励元素就会形成马尔可夫奖励过程(Markov reward process, MRP),在马尔可夫奖励过程基础上增加动作的元素就会形成马尔可夫决策过程,也就是强化学习的基本问题模型之一。

        到这里我们就可以把马尔可夫决策过程描述成一个今天常用的写法,即用一个五元组 <S,A,R,P,\gamma >来表示。其中 S 表示状态空间,即所有状态的集合,A 表示动作空间,R 表示奖励函数,P 表示状态转移矩阵,\gamma 表示折扣因子.

  • 18
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值