强化学习（没想好叫什么）

胡萝拔贝贝

已于 2024-02-21 13:37:20 修改

阅读量227

点赞数 6

分类专栏：强化学习文章标签： python 神经网络深度学习

于 2024-02-18 17:24:02 首次发布

本文链接：https://blog.csdn.net/weixin_42209537/article/details/136152312

版权

强化学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

on policy（同策略学习）

①：数据来源：同策略学习方法使用当前正在执行的政策产生的数据来更新该策略。意味着用于训练的数据必须是由当前撤了选择的行为所产生的。

②实时学习：由于它使用当前策略的数据，因此同策略学习通常需要实时与环境交互，这可能导致学习过程中的探索和利用之间的平衡问题。

③样本效率：同策略学习方法不如异策略学习方法样本效率高，因为它不能利用旧策略的数据。

④实例：SARSA、REINFORCE和A2C

off policy（异策略学习）

①数据来源：异策略学习方法可以使用来自不同策略的数据来更新当前策略。这意味着它可以利用以前策略的数据，甚至是其他智能体的数据。

②经验回放：异策略学习通常与经验回放机制结合使用，存储经验值并从缓存区中随机抽取样本进行学习，有助于提高数据效率和稳定性。

③样本效率：异策略学习方法通常比同策略学习方法更高效，它可以利用旧数据，并且可以更加细致地控制探索和利用

④实例：Q学习、DQN、DDPG、TD3

ACER——actor-critic with experience replay

结合了演员-评论家方法和经验回放的算法，是一种带经验回放的off-policy的actor-critic模型，A3C是on-policy的，其实 ACER 是 A3C 的off-policy 版本。

ACER的目标是解决on-policy算法样本利用效率低的问题，主要有三个技术：（没看懂，展不开）

①截断重要性采样，控制方差的同时保证了无偏性

②stochastic dueling network（SDN）用于连续动作控制算法值函数估计；使用状态值函数和优势函数计算Q，为防止网络输出优势函数A的期望不为0，需要减去A的期望，由于动作无穷多，通过采样计算均值来估计A的期望。

③一种新的置信域方法，计算简单，适合大规模问题。

CEM——cross entropy method（不是强化学习算法）

交叉熵方法，是一种用于优化问题的随机算法，适合解决具有高维度、复杂搜索空间和难以评估的目标函数的问题。

CEM的基本思想来源于进化算法和遗传算法，不同的是，CEM主要关注概率分布的演变，而非个体的演变。通过迭代地优化一个概率分布来寻找最优解，这个分布用于生成样本，而这些样本在给定的目标函数上表现良好。

算法工作流程：

1、初始化：随机生成一组候选解（样本），这些样本通常按照某个先验概率分布进行抽取。

2、评估：计算每个样本的目标函数，也就是适应度。

3、选择：根据样本的目标函数值，选择表现最好的一部分样本，这些样本将用于估计一个新的概率分布。

4、更新：使用被选中的样本来更新概率分布的参数。通常，这一步会涉及到计算样本的均值和协方差，用于定义新的概率分布。

5、重复：重复上述步骤，知道满足某个终止条件，如达到最大迭代次数、解的质量达到某个阈值等。

ARS——augmented random search（不是强化学习算法）

增强随机搜索算法，一种用于优化连续参数函数的算法，特别是在强化学习中用于优化策略参数。作为一种简单而有效的策略优化方法，不需要复杂的梯度计算。

算法的核心思想：通过对策略参数进行随机扰动来探索参数空间，然后根据这些扰动参数的性能来更新策略参数。这种方法类似于进化算法中内的自然选择过程，其中性能较好的扰动被保留下来，以指导下一轮的参数更新。

算法工作流程：

1、初始化：在解空间中随机选择一个初始点作为当前解

2、生成扰动：在当前解的基础上生成多个随机扰动，每个扰动代表一个候选解

3、评估：对所有候选解进行评估，得到他们的性能指标（例如：函数值）

4、更新：根据候选解的性能指标，选择性能较好的扰动方向，并据此更新当前解。这一步通常涉及计算性能指标的平均值和标准差，以此来确定搜索的方向和步长。

5、重复：重复上述步骤，知道满足停止条件（例如：达到预定的迭代次数或性能指标达到某个阈值）

ARS不需要计算梯度，但依赖于随机搜索，可能需要大量的函数评估，因此在某些情况下可能不如基于梯度的优化算法效率高，同时该算法的性能可能受到超参数选择的影响，如扰动的规模和数量等。

ES——evolutionary strategy（不是强化学习算法）

进化策略，是一种进化算法，主要用于解决优化问题，借鉴生物进化的原理，通过模拟自然选择和遗传机制来搜索问题的最优解。

算法基本流程：

1、初始化：随机生成一个初始化种群，种群中的每个个体代表问题空间中的一个候选解。

2、评估：对种群中的每个个体进行评估，通常是通过一个目标函数来计算个体的适应度，适应度越高，表示个体的性能越好。

3、选择：根据个体的适应度，选择一些优秀的个体作为父本，用于产生下一代的种群，选择过程可以采用多种策略。

4、变异：对选中的父本进行变异操作，以产生新的个体，变异可以是随机的，也可以是按照某种规则进行的，如高斯变异等

5、交叉（可选）：在ES算法的一些变体中，交叉操作被用于组合父本的特征，以产生性的个体，但不是所有ES算法都包含交叉步骤。

6、替换：使用新生成的个体替换当前种群中的一部分或全部个体，形成新一代种群。

7、迭代：重复上述步骤，直到满足停止条件。

PETS——ensembles of probabilistic model（概率模型集合） + trajectory optimization（轨迹优化）

PETS算法就是使用PE模型和TS的planning方法进行组合得到的，TS方法其实是给定一组action $a_{t:t+T}$ ，然后使用学习到的模型来评价这组actions。那么如何生成一组随机的actions呢？一种是均匀随机采样，但是对于该高纬度的任务来说，不可能均匀随机采样到一组连续的较好的actions，所有这里用了有指向性的随机采样，即使用CEM方法对哪些actions较好有个大致的方向，然后基于它采样。

概率模型集合：是指使用多个模型来共同预测或估计某个结果，在机器学习和统计学习中，这种方法可以提高预测的准确性和鲁棒性。每个模型可能在不同的数据集上训练，或者使用不同的算法，或者有不同的架构。集合的最终预测通常是基于所有单个模型预测的平均值或某种投票机制。

轨迹优化：是一种数学方法，用于找到是某个成本函数最小化的动作序列。在机器人学、自动驾驶和控制系统等领域，轨迹优化用于生成从一个状态到另一个状态的理想动作序列。这种方法通常考虑动态约束和终端条件，并且可以通过优化算法来实现。

将这两个组件结合在一起，意味着系统将使用多个概率模型来预测环境的不确定性，并基于哲学预测来优化行动轨迹。这种方法可以提供更鲁棒的洁厕，应为它考虑了多种可能得环境状态和未来的演变。

LQG——Linear Quadratic Gaussian线性二次高斯控制/调节

LQG控制是一种用于解决线性二次调节问题的数学方法，假设系统动态是线性的，不确定性（如噪声或干扰）是高斯分布的，并且目标是最小化期望的二次成本函数。

LQG控制的系统模型由以下几部分组成：

1、线性动态系统：

可以用线性微分方程描述：

$\dot{x}\left ( t \right )=Ax\left ( t \right )+B\left ( u\left ( t \right ) \right )+w\left ( t \right )$ ，其中 $x\left ( t \right )$ 是状态向量， $u\left ( t \right )$ 是控制输入， $w\left ( t \right )$ 是外部扰动或噪声，A和B是系统矩阵。

2、高斯噪声：

外部扰动 $w\left ( t \right )$ 和测量噪声 $v\left ( t \right )$ 被假设为高斯白噪声，即它们是均值为0，协方差已知的随机过程。

3、二次成本函数：

LQG控制的目的是最小化期望的二次成本函数

$J=E\left [ \sum_{t=0}^{N-1}\left ( X_{t}^{T}Qx_{t}+u_{t}^{T}Ru_{t} \right )+x_{N}^{T}sx_{N} \right ]$

胡萝拔贝贝

关注

6
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
强化学习（没想好叫什么）

使用状态值函数和优势函数计算Q，为防止网络输出优势函数A的期望不为0，需要减去A的期望，由于动作无穷多，通过采样计算均值来估计A的期望。结合了演员-评论家方法和经验回放的算法，是一种带经验回放的off-policy的actor-critic模型，A3C是on-policy的，其实 ACER 是 A3C 的off-policy 版本。②实时学习：由于它使用当前策略的数据，因此同策略学习通常需要实时与环境交互，这可能导致学习过程中的探索和利用之间的平衡问题。③一种新的置信域方法，计算简单，适合大规模问题。
复制链接

扫一扫