【RL从入门到放弃】【一】

最新推荐文章于 2025-04-08 15:20:13 发布

money_yuan

最新推荐文章于 2025-04-08 15:20:13 发布

阅读量1.4k

点赞数 1

分类专栏： AI

AI 专栏收录该内容

60 篇文章

订阅专栏

1、RL和ML和DL之间的关系

2、马尔卡夫

马尔卡夫性：

系统的下一个状态St+1仅与当前状态St相关

定义：状态st 是马尔科夫的，当且仅当P[st+1 |st ]=P[st+1 |s1 ，…，st]。定义中可以看到，当前状态st 其实是蕴含了所有相关的历史信息s1 ，…，st ，一旦当前状态已知，历史信息将会被抛弃。【这样定义马尔卡夫性有什么意义呢？】

马尔科夫性描述的是每个状态的性质，但真正有用的是如何描述一个状态序列。数学中用来描述随机变量序列的学科叫随机过程。所谓随机过程就是指随机变量序列。若随机变量序列中的每个状态都是马尔科夫的，则称此随机过程为马尔科夫随机过程。

马尔卡夫过程：

定义：马尔科夫过程是一个二元（S,P），且满足，S代表有限状态集合，P是状态转移概率，状态转移概率矩阵为

对于这个例子，假设下面这个表格填写上数字，这个table就是马尔卡夫过程。

等价于下面这个图：

马尔卡夫链：一条状态序列就被称为一条马尔卡夫链。

马尔卡夫决策：

在马尔卡夫过程中加上reward和action就是马尔卡夫决策，简称MDP。马尔卡夫决策过程由元祖（S，A，P，R，γ）也就是元祖里面多了几个元素。

S：有限状态集合

A：有限动作集合

P：状态转移概率：包含动作

马尔卡夫过程的p

R：回报函数

γ: 折扣因子，是在计算累计期望回报的时候使用的一个参数

策略：

策略是动作到状态的映射，策略常⽤符号π表⽰，它是指给定状态s时，动作集上的一个分布

强化学习的策略往往是随机策略。采用随机策略的好处是可以将探索耦合到采样的过程中。

给定策略是指在一个state选择每个action的概率是确定的，强化学习的策略一般包含【本博客后面的内容】

2.1的公式属于是随机策略，确定性策略的表示如下：

a=π(s)

累积回报

累积回报是一个序列通过如下公式计算的累积回报值。

给定策略【确定的或者是随机的】之后，累积回报具有多个值，而且现在策略经常是随机的，所以累积回报也是随机的。如果我们要评价S1的价值

使用累积回报Gt是无法评估的，但是Gt的期望确是固定的。

值函数

值函数分为状态值函数+状态行为值函数

状态值函数

当智能体采用策略π时，累积回报服从一个分布，累积回报在状态s处的期望值定义为状态-值函数

注意：状态值函数是与策略π相对应的，这是因为策略π决定了累积回报G的状态分布

状态值函数为状态行为值函数的和

状态-行为值函数为当前状态的reward+r*sum(上一个状态：(状态转移概率×状态值函数))

带入得到公式：

状态行为值函数

合并得到：

状态值函数和状态行为值函数的贝尔曼方程

状态值函数的贝尔曼方程

最后一个等式证明【没看懂】

这里需要注意的是对哪些变量求期望。

状态行为值函数的贝尔曼方程

值函数和最优策略

从最开始引入值函数的概念入手，值函数是用来评估S1的价值，假设我们每一点都选择最具有价值的action来走的话，那最后的就是最优的policy

最优状态值函数υ* （s）为在所有策略中值最大的值函数

最优状态-⾏为值函数q* （s，a）为在所有策略中最⼤的状态-⾏为值函数

最优状态值函数和最优状态-动值函数的⻉尔曼最优⽅程：

若已知最优状态-动作值函数，最优策略可通过直接最大化q* （s，a）来决定

3、RL和MDP之间的关系

应该说MDP是最简单的强化学习的数学模型，因为他本身做了很多限制

面对的state，数量是有限的
采取的action，数量也是有限的
对于特定的state，当下的reward是明确的
在某一时刻，采取行动at，st切换至st+1，st+1有多种可能，

就是指st+1不确定，state转换概率状态转换只依赖当前状态和先前的状态无关

对马尔卡夫过程的各种限制，不断放松，研究相应的算法，就是RL的目标

Eg：

st数量有限，但是十分巨大，如何降低DP的运算成本
st数量无线，DP失效，如何改进算法
st不能被完全观察，只能被部分观察到，如何改进算法
st完全不能被观察，只能通过其他现象推测其潜在的状态，如何改进算法
st的数量是无限的，且不是离散的，是连续的值

4、RL学习框架

5、RL常用的随机策略

贪婪策略

贪婪策略是⼀个确定性策略，即只有在使得动作值【动作值函数或者称他为行为值函数】函数q* （s，a）最⼤的动作处取概率1，选其他动作的概率为0

ε-greedy策略

后面的参数和这样的意义应该是一样的，因为这里都是动作值函数

ε-greedy策略是强化学习最基本最常⽤随机策略。其含义是选取使得动作值函数最⼤的动作的概率为

其余为：

ε-greedy平衡了利⽤（exploitation）和探索（exploration），其中选取动作值函数最⼤的部分为利⽤，其他⾮最优动作仍有概率为探索部分。

高斯策略

一般高斯策略可以写成πθ=μθ+ϵ，ϵ∼N(0,σ2)πθ=μθ+ϵ，ϵ∼N(0,σ2)。其中μθμθ为确定性部分，ϵϵ为零均值的高斯随机噪声。高斯策略也平衡了利用和探索，其中利用由确定性部分完成，探索有ϵϵ完成。高斯策略在连续系统的强化学习中应用广泛。

玻尔兹曼分布

对于动作空间是离散的或者动作空间并不大的情况，可采用玻尔兹曼分布作为随机策略，即

其中Q(s,a,θ)Q(s,a,θ)为动作值函数，该策略的含义是动作值函数大的动作被选中的概率大，动作值函数小的动作被选中的概率小

6、RL算法的形象化描述

博客等级

码龄9年

80
原创

148
点赞

744
收藏

102
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 【RL从入门到放弃】【八】

下一篇：: 【RL从入门到放弃】【二表格型RL】

最新评论

【RL从入门到放弃】【二十四】
weixin_43653413: 求问： observation = observation[np.newaxis, :] 这句报错： TypeError: tuple indices must be integers or slices, not tuple
tensorflow中的“tf.name_scope()”有什么用？
一叶知秋523: 讲得很好！
【内核调度、负载计算】【WALT】【walt_update_task_ravg】
阳天_: update_task_demand的讲解链接没了
【负载均衡、负载计算】【propagate_entity_load_avg】
St0pH@CK: 有个问题需要请教一下，在update_tg_cfs_util中计算gcfs_rq和gse中记录的util差异的方法如下： delta = gcfs_rq->avg.util_avg - se->avg.util_avg; 我的理解是： a) gcfs_rq中记录的util信息，只有在gcfs_rq->curr !=NULL时才会统计，即这个group中某个任务正在运行时才会统计 b) gse中记录的util信息，只有在cfs_rq->curr == gse时才会统计，也就是说这个group的gse被pick运行时，也就是说group中某个任务正在运行所以我认为上面gcfs_rq和gse中记录的util信息是一样的，那么什么时候才会存在gcfs_rq和gse的util信息存在差异呢？具体对应什么样的场景呢？
数组只能在初始化时整体赋初值。以后再赋值只能逐一改变了
jv0_1_1_0_1: 这个没有错吧，动态初始化，后面的[] 不能书写数组长度啊

大家在看

vs2022中scanf()函数的用法

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。