强化学习基本概念

最新推荐文章于 2024-06-20 17:41:01 发布

Bruce-XIAO

最新推荐文章于 2024-06-20 17:41:01 发布

阅读量554

点赞数

分类专栏：【强化学习】文章标签：强化学习

本文链接：https://blog.csdn.net/CCSUXWZ/article/details/126259226

版权

【强化学习】专栏收录该内容

2 篇文章 0 订阅

订阅专栏

强化学习基本概念

本文介绍强化学习的一些基础概念，通过这篇博客梳理后续学习中需要用到的一些名词，主要包括，智能体、环境、状态、动作、奖励、回报、动作价值函数、状态价值函数等，希望能够加深对这些概念的理解。

1.智能体
我们每个人都是一个智能体，无时无刻地与真实世界作者交互。智能体可以想象为处在某个环境下的一个动作发出者，如马里奥游戏，智能体就是马里奥，马里奥面对各个障碍时，需要选择（1）跳（2）前进（3）后退（4）朝下，等动作，最终达到终点。我们将智能体记作agent

2.环境
环境是与智能体交互的载体，如马里奥游戏的关卡，当智能体做出响应时，环境会不断给智能体发出新的状态，一个状态可以想象成游戏中的一帧画面，整个游戏就是由多帧画面组成的。值的注意的是，t时刻的画面可能有多种，它与智能体选择的动作有关，因此，状态具有随机性。我们将t时刻的状态记作St。

3.动作
动作是智能体与环境交互时所发出的，好的动作能够使智能体适应环境，从而获取较高的奖励，而坏的动作可能使得智能体在游戏局中失败，如马里奥在面对一个迎面而来的蘑菇
时，选择向上跳的动作，而不是往前走，一个时刻的动作也有多种选择，因此，动作也具有随机性。将t时刻的动作记作at。

4.奖励
当智能体做出一个动作时，环境给智能体返回下一时刻的状态st, 同时也会给智能体一个奖励，来表示当前时刻智能体所做动作的好坏。比如在马里奥游戏中，迎面而来的蘑菇
时，选择向上跳的动作，成功躲避障碍物，奖励值为1，而碰到障碍物奖励值为-100，游戏结束。
奖励的作用是使得智能体能在相同的状态下做出动作的修正，以使得它能够更好地去适应环境，奖励的设计会决定游戏的公平和智能体是否能够通过游戏。

5.回报
回报是指智能体站在某一状态下，或者关系到未来多个状态奖励的总和，即t时刻的回报是由当前时刻的回报加上t后续时刻回报的总和，且越是后续时刻的回报对当前回报的作用也就越小，可以使用衰减因子对t时刻以后的回报进行加权。举个简单的例子，今天给你100块钱和明天给你200块钱，那肯定是今天给100块的影响更大，因为明天的事情还存在不确定性。因此，今天的回报 = 100 + r 200, 其中r属于[0,1]是衰减因子，表示后续的回报重要性更低。我们将t时刻的回报记作Ut。
6.策略
称之为policy,用 $\pi$ 来表示，策略用于指导动作， $\pi_t$ 是一个概率分布，每个动作，都有不同的概率
7.动作价值函数
在同一个状态下，智能体可能选择不同的动作，每个动作所获得的回报是不一样的，比如t时刻，马里奥遇到蘑菇障碍时，选择向上跳的回报是100，而后退的回报是20，往前的回报是-100，往下蹲的回报是0。动作价值表示的是这些动作所获得的奖励的期望值，即平均值，因此，t时刻的动作价值可以表示为：
t时刻的动作价值 = [往上跳的回报+往后退的回报+向前的回报+往下蹲的回报]/4, 给定状态St。可以形式化为
$Q(s_t,a_t) = E[u_t|S_t = s_t,A_t = a_t]$
其中， $Q(s_t,a_t)$ 表示t时刻的动作价值函数， $u_t$ 表示回报， $s_t$ 为t时刻的状态， $a_t$ 为t时刻的动作， $Q(s_t,a_t)$ 就表示给定状态 $s_t$ 下，所有动作回报的平均。 $Q(s_t,a_t)$ 可以评估当前状态 $s_t$ 下，选择动作 $a_t$ 的好坏。我们也可以由动作价值函数可以找t时刻价值最高的动作
$a_t = argmax_{\pi}Q^*(s_t,a_t)$
8.状态价值函数
状态价值是用来表征在每个状态下，智能体所能获得的回报的平均，它是动作价值的期望，从而消去动作 $A_t$ ,形式化如下：
对于离散型的动作
$V(s_t) = E_a[Q(s_T,a_t)] = (Q(s_t,a_1)+Q(s_t,a_2)+...+Q(s_t,a_n))/n$
对于连续型的动作，则对 $a$ 进行积分
$\int_a{Q(S_t,a)}da$
9.状态转移
我们将智能体与环境的一些列交互表示为以下的序列
$s 1, a 1, s 2, a 2, r 2, s 3, a 3, r 3, ..., s t, a t, r t$