强化学习——基本概念

最新推荐文章于 2024-08-11 18:21:52 发布

Matt_sh

最新推荐文章于 2024-08-11 18:21:52 发布

阅读量1.3k

点赞数

分类专栏：强化学习文章标签：强化学习

本文链接：https://blog.csdn.net/Matt_sh/article/details/108024283

版权

1 篇文章 0 订阅

订阅专栏

强化学习关注与智能体（agent）如何与环境交互中不断学习以完成特定的目标。
与有监督学习相比，不需要告诉智能体数据以及对应的标签，学习相应的模型。
而是需要智能体在环境中一次次学习（哪些数据对应哪些标签），从而学习规律知道策略。
强化学习是希望智能体在环境中根据当前状态，采取行动，转移到下一个状态，获得回报。不断进行这样的过程，从而学习到一个策略（状态到动作的映射，即当前状态下，采取什么样的行动，能使得我最终获得的回报最大【不仅只是当前状态的而回报，一个策略π的长期影响才是至关重要的】）

两个交互对象：

智能体（agent）：可以感知外界环境的状态（State）和反馈的奖励（Reward），并进行学习和决策．智能体的决策功能是指根据外界环境的状态来做出不同的动作（Action），而学习功能是指根据外界环境的奖励来调整策略．
环境：是智能体外部的所有事物，并受智能体动作的影响而改变其状态，并反馈给智能体相应的奖励。

基本要素：

状态（state）：对环境的描述，可以是离散的或连续的。状态空间 $S$ 。
动作(action)：是对智能体行为的描述，可以是离散的或连续的，动作空间 $A$ 。
策略 $\pi(a|s)$ ：智能体根据当前状态s，决定下一步做出的动作a。
- 确定性策略： $\pi$ 是一个函数映射， $S \to A$ 。
- 随机性策略： $\pi$ 是一个概率分布， $\sum_{a\in A}\pi(a|s)=1$
状态转移概率 $p (s^{'} ∣ a, s)$ ：智能体根据当前状态𝑠 做出一个动作𝑎 之后，环境在下一个时刻转变为状态𝑠′ 的概率。
即时奖励 $r (s^{'}, s, a)$ ：是一个标量函数，即智能体根据当前状态𝑠 做出动作𝑎 之后，环境会反馈给智能体一个奖励，这个奖励也经常和下一个时刻的状态𝑠′ 有关．

如果状态和动作都是离散的时候，可以把智能体与环境的交互看成一个离散的序列。
$s_0,a_0,s_1,r_1,a_1,s_2......s_t,r_t,a_t...$
如下图所示：
此时，将智能体与环境的交互看成一个马尔可夫决策过程
$p(s_{t+1}|s_t,a_t,s_{t-1},.....s_0,a_0)=p(s_{t+1}|s_t,a_t)$
其决策过程如下图所示：
马尔可夫决策过程的轨迹：

用<S,A,P,R>的马尔可夫决策过程定义强化学习任务

Model-based：如果四元组的元素都已知，而且状态集合、动作集合在有限步数内是有限集，则机器可以对真实的环境建模，构建一个虚拟世界来模拟真实环境的状态和交互反应。
换句话说，如果及其中能够到状态转移函数和奖励函数，就可以直接在虚拟的环境中学习和规划策略即可。
Model-free：但实际中，很难知道马尔可夫决策过程的所有元素，对于状态转移和奖励函数都不好估计，甚至环境都是未知的，所以就要采用model free的方法，智能体只能在真实环境中通过一定策略来执行动作，等待奖励和状态转移，然后根据反馈的信息来更新行为策略，从而反复迭代学习到最优策略。

区别