强化学习的数学原理(1-3)

本课程笔记参考(西湖大学智能无人系统实验室-赵世钰)https://www.bilibili.com/video/BV1sd4y167NS/?spm_id_from=333.337.search-card.all.click

文献引用:S. Zhao, “Mathematical Foundations of Reinforcement Learning”, Tsinghua University Press and Springer Nature Press, 2024

课程介绍

一些推荐书籍(不一定适合初学者)
在这里插入图片描述
课程安排:
在这里插入图片描述

第一课 基本概念

概念英文表示字母表示
状态State s i s_i si
状态空间State Space S = { s i } \mathcal{S}=\{s_i\} S={si}
行动Action a i a_i ai
行动空间Action Space A ( s i ) = { a i } \mathcal{A}(s_i)=\{a_i\} A(si)={ai}
状态转移State Transition s 1 → a 1 s 2 s_1 \stackrel{a_1}{\to} s_2 s1a1s2
状态转移概率State Transition Probability p ( s 2 ∣ s 1 , a 1 ) \mathcal{p}(s_2 |s_1 ,a_1) p(s2s1,a1)
策略Policy π ( a 1 ∣ s 1 ) \pi(a_1|s_1) π(a1s1)

需要注意的是
1、行动空间与状态有关
2、某一状态下采取各个行动的策略概率和为1
3、某一状态和某一行动下,转移后的状态概率和为1

  上述定义都是为了描述过程,那么如何体现人与机器的交互呢,引入下列定义:
1、Reword:当采取积极的行动,就给予正向奖励;采取消极的行动,就给予负面惩罚。
(reword以来当前状态和行动,而非下一状态)
2、Trajectory:一个 state-action-reward 链
3、Return:某trajectory得到的所有reword之和
4、Discount Rate : γ ∈ [ 0 , 1 ) \gamma \in[0,1) γ[0,1) (为了解决return无限发散的问题)
5、Discounted Return:考虑Discount Rate后的Return, γ \gamma γ 趋于0则更近视,趋于1则更远视
6、Episode(trial):有Terminal State的Trajectory 【与之相反的是continue tasks】

  以上定义基本涵盖了所有后续可能会用到的知识,现在将其应用于一个马尔可夫过程框架中(markov decision process,MDP)
集合 S S S A ( s ) A(s) A(s) R ( s , a ) R(s,a) R(s,a)
概率分布 p ( s ′ ∣ s , a ) \mathcal{p}(s' |s ,a) p(ss,a) p ( r ∣ s , a ) \mathcal{p}(r|s ,a) p(rs,a)
策略 π ( a ∣ s ) \pi(a|s) π(as) (在每个状态下动作的概率分布)
马尔可夫性:无记忆性

第二课 贝尔曼公式

首先还是回顾基础定义:
在这里插入图片描述
将上述定义应用在多步trajectory中,可以得到:

  于是state value 就是 G t G_t Gt的期望值:
v π ( s ) = E [ G t ∣ S t = s ] v_{\pi}(s)=\mathbb{E}[G_t|S_t=s] vπ(s)=E[GtSt=s]
state value是关于状态 s s s和策略 π \pi π的函数
▶ \blacktriangleright 一个确定的trajectory求得的是return,从某一状态出发可能出现的多个trajectory的return的平均值是state value
下面推导Bellman 公式
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
  观察上式可以得到相邻状态的state value间的关系,求解思想:BOOTSTRAPPING!
  同时为了求解需要已知 π ( a ∣ s ) \pi(a|s) π(as) p ( r ∣ s , a ) p(r|s,a) p(rs,a) p ( s ′ ∣ s , a ) p(s'|s,a) p(ss,a)
▶ \blacktriangleright 一旦求解出 v π ( s ) v_{\pi}(s) vπ(s),也就相当于评估了策略 π \pi π,即policy evaluation。
▶ \blacktriangleright p ( r ∣ s , a ) p(r|s,a) p(rs,a) p ( s ′ ∣ s , a ) p(s'|s,a) p(ss,a)表示了动态模型。根据是否已知动态模型,可将问题分为两大类:model-based和model-free,分别会有对应的不同求解算法。
Bellman的矩阵形式
在这里插入图片描述
在这里插入图片描述
求解Bellman方程
  给定一个策略就可以写出其对应的Bellman公式,有Bellman公式就可以求解出State Value,求出State Value就可以用于评价该策略的优劣,所以本质是一个policy evaluation的过程。
  不同的策略可以得到相同的state value
方法1:closed form solution
v π = ( I − γ P π ) − 1 r π v_{\pi}=(I-\gamma P_{\pi})^{-1}r_{\pi} vπ=(IγPπ)1rπ
方法2:iterative solution
v k + 1 = r π + γ P π v k v_{k+1}=r_{\pi}+\gamma P_{\pi}v_k vk+1=rπ+γPπvk
方法2的收敛性证明:
在这里插入图片描述
进而引入action value
q π ( s , a ) = E [ G t ∣ S t = s , A t = a ] q_{\pi}(s,a)=\mathbb{E}[G_t|S_t=s,A_t=a] qπ(s,a)=E[GtSt=s,At=a]
依赖于状态、动作和策略(同一状态同一动作也会产生不同的下一状态,所以需要求期望)
▶ \blacktriangleright action value 与 state value 的关系:
在这里插入图片描述
在这里插入图片描述

第三课 贝尔曼最优公式

贝尔曼最优公式的形式:
在这里插入图片描述
矩阵形式:
在这里插入图片描述
  针对上式一般假设模型已知( p p p, r r r, γ \gamma γ), v ( s ) v(s) v(s) π ( s ) \pi(s) π(s)未知。即有两个未知数,求解时需先假定一个确定(一般是确定 v ( s ′ ) v(s') v(s),求解 π \pi π,即求解每个action对应的 π ( a ∣ s ) \pi(a|s) π(as)
在这里插入图片描述
  BOE(bellman optimality equation)的求解借助了压缩映射不动点定理:
在这里插入图片描述
因此可以使用迭代算法求解:
在这里插入图片描述
详细的迭代算法写作:
在这里插入图片描述
最优性和唯一性:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
一个推论(说明影响策略的是action value的相对大小,不是绝对大小):
在这里插入图片描述

  • 16
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值