强化学习第2章——MRP and MDP

最新推荐文章于 2023-11-30 15:27:47 发布

我不是小哥哥

最新推荐文章于 2023-11-30 15:27:47 发布

阅读量816

点赞数

分类专栏： RL 文章标签：马尔科夫链

本文链接：https://blog.csdn.net/m0_48941999/article/details/121001428

版权

RL 专栏收录该内容

8 篇文章 1 订阅

订阅专栏

本文深入探讨了强化学习（RL）的特点，如无监督学习、延迟反馈和时间顺序，并介绍了RL的基本元素，包括策略、奖励和模型。RL的目标是通过与环境的互动最大化累积奖励。马尔可夫决策过程（MDP）是完全可观察环境的模型，强调马尔可夫性质，而马尔可夫奖励过程（MRP）则考虑了奖励的折扣计算。RL中的关键任务包括预测和控制，以及探索与利用之间的平衡。此外，价值函数和贝尔曼方程是理解RL性能的重要工具。

摘要由CSDN通过智能技术生成

一、简介

RL与其他ML的区别（特点）：

无监督，只有奖励信号

反馈延迟

时间顺序：动态系统，受不同环境影响很大

采用不同的措施应对不同的环境：独立同分布数据不符合RL

假设：

量化奖励信号，通过最大化累积奖励进行训练。

对于多目标，不同目标设置不同权重值的奖励，以达到累积奖励最大化的目标

input: 观察，奖励

output:动作

无法控制外部环境，只能产生动作

个体和环境 Agent & Environment

在这里插入图片描述

环境可以：

接收个体的动作 $A_t$ ，
更新环境信息，同时使得个体可以得到下一个观测 $Q_{t+1}$ ,
给个体一个奖励信号 $R_{t+1}$

history and state：

在这里插入图片描述

关系：

agent根据history决定action

环境根据history决定下一个观察和奖励

由于history数据太过庞大，且满足马尔可夫性质，state是history的总结

环境状态： $S_t^e$

agent状态： $S_t^a$ agent state决定下一步动作的信息

环境状态

是环境的私有呈现，包括环境用来决定下一个观测/奖励的所有数据，通常对个体并不完全可见，也就是个体有时候并不知道环境状态的所有细节。即使有时候环境状态对个体可以是完全可见的，这些信息也可能包含着一些无关信息。

个体状态

是个体的内部呈现，包括个体可以使用的、决定未来动作的所有信息。个体状态是强化学习算法可以利用的信息，它可以是历史的一个函数： $S_{t}^{a}=f\left(H_{t}\right)$

信息状态

包括历史上所有有用的信息，又称Markov状态。

全观察： $O_t == S_t^e == S_t^a$

部分观察： $S_t^e != S_t^a$

个体必须构建它自己的状态呈现形式，

记住完整的历史： $S_{t}^{a}=H_{t}$
Beliefs of environment state：此时虽然个体不知道环境状态到底是什么样，但个体可以利用已有经验（数据），用各种个体已知状态的(贝叶斯)概率分布作为当前时刻的个体状态的呈现：
Recurrent neural network：不需要知道概率，只根据当前的个体状态以及当前时刻个体的观测，送入循环神经网络(RNN)中得到一个当前个体状态的呈现：

agent的组成部分：

策略：表现形式，决定agent行为

奖励：对未来奖励的预测，用来评价当前状态的好坏程度。当面对两个不同的状态时，个体可以用一个Value值来评估这两个状态可能获得的最终奖励区别，继而指导选择不同的行为，即制定不同的策略。同时，一个价值函数是基于某一个特定策略的，不同的策略下同一状态的价值并不相同。

模型：agent认为的环境：next state and reward（不是必须的）

RL and planning:

学习：环境初始时是未知的，个体不知道环境如何工作，个体通过与环境进行交互，逐渐改善其行为策略。

规划: 环境是已知或近似已知的，个体并不与环境发生实际的交互，而是利用其构建的模型进行计算，在此基础上改善其行为策略。

一个常用的强化学习问题解决思路是，先学习环境如何工作，也就是了解环境工作的方式，即学习得到一个模型，然后利用这个模型进行规划。

Exploration and exploitation:

Exploration:找到更多关于环境的信息

Exploitation：利用已知信息最大化奖励

prediction and controll：

在强化学习里，我们经常需要先解决关于预测（prediction）的问题，而后在此基础上解决关于控制（Control）的问题。

预测：给定一个策略，评价未来。可以看成是求解在给定策略下的价值函数的过程。eg.找到一个价值函数适配统一的随机策略
控制：找到一个好的策略来最大化未来的奖励

二、MDP

（马尔可夫决策过程）MDP：描述一种可完全观察的环境（如果只能观察到部分环境，也能转化为完全观察的环境）

马尔可夫性质/马尔可夫链/马尔可夫链：t+1时刻的状态仅取决于t时刻的状态，与之前的状态无关

马尔可夫过程/马尔可夫链：

元祖：<S，P>

S：状态

P：转换概率

（马尔可夫奖励过程）MRP：

<S,P,R,r>

R:s状态下，t+1时刻的奖励

r：折扣因子

使用折扣计算的原因：

从数学上可以避免在计算return时因陷入循环而无法求解

反映了远期奖励对于当前状态具有一定的不确定性

目标：

$G_t$ :RL的目标，累积奖励最大化。从某一个状态 St 开始采样直到终止状态时所有奖励的有衰减的之和。

用来反映一个状态的重要程度

由于 $G_t$ 本身具有局限性，所以引入value function来描述状态的重要性。

如果序列本身可以终结，那么r可以取值为1

value函数：

在状态s下，MRP获得的（累积）奖励的期望。一个状态的价值就是该状态（在不同状态序列下）的收获的期望。

当采样生成的状态序列越多，计算得到的平均收获就越接近该状态的价值，因而价值可以准确地反映某一状态的重要程度。

价值函数建立了从状态到价值的映射。

bellman公式：迭代方法

Value function可以分为两部分：

及时奖励 $R_{t+1}$

之后一系列的折扣奖励 $rv(S_{t+1})$ =>下一时刻的折扣奖励

MDP：MRP引入决策过程

<S,A,P,R,r>：
A：一组动作的有限集合

MDP：

策略：当前状态下采取的动作（与时间步无关，任意时刻在该状态下采取的动作是一样的）

基于状态的价值函数：基于某种策略下产生不同的动作所获得的价值

$v_\pi(s) = max_{*}q_{*}(s,a)$

基于动作的价值函数：

与MRP类似，在某个状态下，只做出该动作获得的价值

我不是小哥哥

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习第2章——MRP and MDP

一、简介RL与其他ML的区别（特点）：无监督，只有奖励信号反馈延迟时间顺序：动态系统，受不同环境影响很大采用不同的措施应对不同的环境：独立同分布数据不符合RL假设：量化奖励信号，通过最大化累积奖励进行训练。对于多目标，不同目标设置不同权重值的奖励，以达到累积奖励最大化的目标input: 观察，奖励output:动作无法控制外部环境，只能产生动作个体和环境 Agent & Environment环境可以：接收个体的动作AtA_tAt ，更新环境信息，同时使得个体
复制链接

扫一扫

专栏目录