[机器学习]强化学习

最新推荐文章于 2024-08-11 18:21:52 发布

CristianoJason

最新推荐文章于 2024-08-11 18:21:52 发布

阅读量1.8k

点赞数

分类专栏：模式识别与机器学习文章标签：机器学习强化学习

本文链接：https://blog.csdn.net/CristianoJason/article/details/79058041

版权

本文档记录了《机器学习》第 16 章强化学习相关内容

任务与奖赏

形式化表示

环境 $E = \langle X, A, P, R \rangle$
状态 $x \in X$
动作 $a \in A$
状态转移概率 $P:X\times A\times X\mapsto \mathbb{R}$
奖赏 $R:X\times A\times X\mapsto \mathbb{R}$

一些应用中奖赏函数可能仅与状态转移有关： $R:X\times X\mapsto \mathbb{R}$

“机器”与“环境”的界限

在环境中状态的转移、奖赏的返回是不受机器控制的，机器只能通过选择要执行的动作来影响环境，也只能通过观察转移后的状态和返回的奖赏来感知环境。

策略（Policy）

确定性策略： $\pi:X\mapsto A$
随机性策略： $\pi:X\times A\mapsto \mathbb{R}$ ，有 $\sum_{a}\pi(x,a)=1$

奖赏

$T$ 步累计奖赏： $\mathbb{E}[\frac{1}{T}\sum_{t=1}^{T}r_t]$
$\gamma$ 折扣累计奖赏： $\mathbb{E}[\sum_{t=0}^{+\infty}\gamma^t r_{t+1}]$

$K$ -摇臂赌博机

离散状态空间、离散动作空间

最大化单步奖赏

需要知道每个动作带来的奖赏
执行最大奖赏的动作

获知每个摇臂的期望奖赏

仅探索

将所有尝试机会平均分配给每个摇臂，以每个摇臂各自的平均吐币概率为奖赏期望的近似估计。

可以很好地估计每个摇臂的奖赏，但由于探索的存在常常会失去选择最优摇臂的机会。
仅利用

选取目前最优（平均奖赏最大）的摇臂。很难对摇臂的期望奖赏有一个较好的估计，从而选不到最优摇臂。

$\epsilon$ -贪心

基于 $\epsilon$ 的概率对探索和利用进行折中

第 $k$ 个摇臂第 $n$ 次尝试之后平均奖赏：

Q 0 (k) = 0

$Q_0(k)=0$

Q n (k) = 1 n ((n - 1) \times Q n - 1 (k) + v n)

$Q_n(k)=\frac{1}{n}((n-1)\times Q_{n-1}(k)+v_n)$

Q n (k) = Q n - 1 (k) + 1 n (v n - Q n - 1 (k))

$Q_n(k)=Q_{n-1}(k)+\frac{1}{n}(v_n-Q_{n-1}(k))$

如何确定 $\epsilon$

摇臂奖赏不确定性较大，则选用较大的 $\epsilon$
摇臂奖赏不确定性较小，则选用较小的 $\epsilon$

Softmax

基于当前已知的摇臂平均奖赏对探索和利用进行折中

摇臂概率的分配

基于 Boltzmann 分布

P (k) = e Q ( k ) τ Σ K i = 1 Q ( i ) τ

$P(k)=\frac{e^{\frac{Q(k)}{\tau}}}{\Sigma_{i=1}^{K}\frac{Q(i)}{\tau}}$

有模型学习

假定任务对应的马尔科夫决策过程四元组 $E=\langle X, A, P, R\rangle$ 均已知，即机器已对环境进行了建模，能在机器内部模拟出与环境相同或近似的状况，从状态 $x$ 执行动作 $a$ 转移到状态 $x'$ 的状态转移概率 $P_{x\rightarrow x'}^a$ 以及奖赏 $R_{x\rightarrow x'}^a$ 均已知。

策略评估

状态值函数 $V(\cdot)$ ：指定状态上的累积奖赏
- $T$ 步累积奖赏
  
  $V π T (x) = ? π [1 T \sum t = 1 T r t | x 0 = x]$ $V_T^{\pi}(x)=\mathbb{E}_\pi[\frac{1}{T}\sum_{t=1}^{T}r_t|x_0=x]$
  
  $V π T (x) = \sum a \in A π (x, a) \sum x' \in X P a x \to x' (1 T R a x \to x' + T - 1 T V π T - 1 (x'$