机器学习、深度学习、强化学习
文章平均质量分 86
秃头秃头
还有你Y
学如逆水行舟,不进则退
展开
-
HPPO混合动作PPO算法
这意味着动作的选择是通过一组实数或向量来表示的,而不是通过离散的标识符。例如,一个机器人在连续的动作空间中选择它的速度和方向,这两个参数可以是实数,表示机器人在每个时刻的线速度和角速度。参数化动作空间通常出现在需要处理连续动作的问题中,其中动作的可能取值是一个连续的范围,而不是一个离散的集合。在这种情况下,使用参数化动作空间的方法可以更灵活地表示和控制动作,有助于应对连续性动作空间带来的挑战。这是一个离散动作空间的例子。在强化学习中,参数化动作空间是指使用参数来表示和控制智能体可选取的动作的一种方法。原创 2024-04-18 11:27:22 · 880 阅读 · 1 评论 -
分布式强化学习
首先,每个智能体通常与其它智能体以及环境中的关键点形成一个动态的、有时空特征的关系图。。节点可以代表不同的智能体,边可以代表智能体之间的交互或通信。图的空间结构捕捉了智能体之间的关系,而时间结构则捕捉这些关系随时间的变化。边可以表示智能体之间的相互作用、距离、通信或其他形式的关系,边上的权重可能反映这些关系的强度或重要性。原创 2024-04-12 21:41:16 · 741 阅读 · 0 评论 -
SAC(Soft Actor-Critic)理论与代码解释
ϕ。原创 2024-01-30 20:07:52 · 1362 阅读 · 0 评论 -
多智能体强化学习--理论与算法
在单个智能体与部分可观测环境的交互过程一般使用部分可观测马尔可夫决策过程(partial observable MDP,POMDP)133][134][13]进行建模,其挑战来自部分观测难以恢复环境实际所处的马尔可夫状态,而马尔可夫性是强化学习的关键假设。在多智能体问题中,如果每个智能体观测到环境的局部信息,并且根据局部信息进行决策,这类问题称为去中心化POMDP问题(decentralized POMDP, Dec-POMDP)[136][137][138]。原创 2024-01-28 12:21:59 · 1171 阅读 · 1 评论 -
多智能体强化学习--MAPPO(pytorch代码详解)
2.box类。原创 2024-01-28 12:18:50 · 1129 阅读 · 0 评论 -
多智能体强化学习(概念知识,不涉及具体算法)
具体而言,对于给定的状态和动作空间,Boltzmann策略通过对每个动作的评分进行指数化处理,并对所有动作的指数评分进行归一化,得到每个动作的概率分布。网络结构可以是完全连接的、部分连接的或分层的,这取决于具体问题的设置和智能体之间的交互方式。它通过将其他智能体的行为视为环境的一部分,从而更好地解决了传统多智能体强化学习中的挑战,并为复杂的多智能体系统提供了一种有效的决策方法。MF-MARL的核心思想是,通过对均场状态分布的建模,每个智能体可以将其他智能体视为环境的一部分,并根据这个均场信息进行决策。原创 2024-01-13 17:40:00 · 1136 阅读 · 0 评论 -
自编码器的基本概念
稀疏自编码器就是普通自编码器的隐藏层加一个L1正则项,也就是一个训练惩罚项,这样我们训练出的编码器(encoder)表征的特征更加的稀疏,从而能得到少且有用的特征项。传统自编码器一般使用的是全连接层,对于一维信号并没有什么影响,但是对于二维图像或视频信号,全连接层会损失空间信息,而通过卷积操作,卷积自编码器能很好的保留二维信号的空间信息。总体而言,变分自编码器是一种强大的生成模型,通过引入概率分布和潜在变量的随机性,使得模型更能适应数据分布的复杂性,同时也提供了生成新样本的能力。原创 2023-12-26 15:10:48 · 979 阅读 · 0 评论 -
PPO算法与DDPG算法的比较
Actor 网络输出在给定状态stπθat∣st)].PPO 迭代地更新这个 policy,以改进策略并提高性能。原创 2023-11-24 10:53:35 · 1678 阅读 · 0 评论 -
卡尔曼滤波器
其中,P(w)表示的是噪声的概率密度函数,服从均值为0,协方差矩阵为Q的正态分布。(这里的w是向量,所以要用协方差表示向量中各元素值之间的关系。注意,所有的状态变量都是用一个向量x表示的,所有的测量变量也是这样。(先验:理解成模型的计算结果;后验:理解成测量结果)注意,这里的T平方是状态转移矩阵里面的!z1、z2表示两个秤的测量值。原创 2023-09-21 19:32:27 · 68 阅读 · 0 评论 -
【无标题】
off-policy中两种策略可以不同(也就是说也可以相同)然后用behavior policy与环境交互得到很多个experience后,再更新最后的target policy!J的梯度公式可以知道,采样的A必须满足π的分布,π也就是behavior policy,而π刚好也是需要改进的策略,即target policy。其次,这里只需要有一个数据就直接用于更新q-value,然后马上update policy,和以前介绍的算法是准确更新q-value的值不同。)也就是说改变w就可以改变。原创 2023-08-11 21:17:44 · 134 阅读 · 0 评论 -
重新学习强化学习--数学理论
关于 Episode length的设置,理论上应该是无穷大的(agent到达目标点后选择action为不动),但实际中需要一个确切的值,值越大越接近最优的策略,此时对应的state value也是最终的值。注意,这里s2,s3情况下的策略是最优的,所有改进策略一定是有效的,但可以证明,无论后面的策略是否最优,都可以经过action value的迭代最终达到最优策略。,此时我们不知道g(w)的具体表达式,如果有一个神经网络可以拟合g(w),我们可以将输入w看做方程的解,输出y需要等于0!原创 2023-08-11 13:47:04 · 198 阅读 · 0 评论 -
DRL--算法合集
但是也有一些算法可以同时使用策略和价值来做决策,比如演员-评论家算法(Actor-Critic),其中演员(Actor)是一个策略函数,评论家(Critic)是一个价值函数,演员根据评论家的评价来更新策略,评论家根据环境的奖励来更新价值。确定性策略的优点是简单、高效、易于实现;A3C 采用异步梯度更新的方式,不同的 worker 获取独立的经验后(一个 batch),独立的去更新 Global Network,当主网络参数被更新了以后,就用最新的参数去重置所有的 worker,然后在开始下一轮循环。原创 2023-05-30 09:55:27 · 837 阅读 · 0 评论 -
The Option-Critic Architecture
(比较清楚)原创 2023-05-17 14:18:18 · 287 阅读 · 0 评论 -
强化学习--稀疏奖励与约束处理
比如,在一个迷宫寻路问题中,除了给出到达终点的正奖励和每走一步的负奖励外,还可以给出接近终点的正奖励或远离终点的负奖励,以引导智能体更快地找到正确的路径。正奖励表示智能体做出的行为对任务有益,负奖励表示行为有害,而零奖励表示行为没有影响。过小的奖励可能无法提供足够的鼓励,从而导致智能体无法学会任务,过大的奖励可能会导致智能体出现过度拟合的现象,或者出现在任务中没有意义的行为。稀疏的奖励可能会导致智能体无法学习到正确的行为,而鲁棒的奖励可以帮助智能体克服环境中的噪声和异常情况,提高训练和性能的鲁棒性。原创 2023-05-17 14:17:10 · 2080 阅读 · 0 评论 -
PPO算法(附pytorch代码)
PPO算法是一种强化学习中的策略梯度方法,它的全称是Proximal Policy Optimization,即近端策略优化1。PPO算法的目标是在与环境交互采样数据后,使用随机梯度上升优化一个“替代”目标函数,从而改进策略。PPO算法的特点是可以进行多次的小批量更新,而不是像标准的策略梯度方法那样每个数据样本只进行一次梯度更新12。PPO算法有两种主要的变体:PPO-Penalty和PPO-Clip。原创 2023-04-21 22:43:56 · 24366 阅读 · 18 评论 -
详解DDPG(附pytorch代码)
NormalizedActions是一个gym的ActionWrapper,它可以对任何一个gym环境的动作空间进行包装,从而实现动作空间的归一化。3. DDPG 的 actor 网络是一个确定性的策略网络,它直接输出一个具体的动作,而不是一个动作的概率分布。AC 的 actor 网络可以是一个确定性的或者随机性的策略网络,根据不同的变种而定。其中,第一项是Q值对动作的梯度,第二项是策略网络对参数的梯度。由于Q值是由值函数网络计算的,而不是直接由策略网络输出的,所以我们需要使用链式法则来求出梯度,即。原创 2023-04-21 18:50:35 · 2923 阅读 · 1 评论 -
熵正则(pytorch实现)
(搜了一下,好像很少几乎没有关于熵正则的代码,本文就展示一下AC算法中熵正则是如何应用的吧)原创 2023-04-17 15:44:07 · 642 阅读 · 0 评论 -
强化学习DRL--策略学习(Actor-Critic)
策略学习的意思是通过求解一个优化问题,学出最优策略函数πa∣s或它的近似函数(比如策略网络)。原创 2023-03-21 23:09:35 · 458 阅读 · 0 评论 -
强化学习DRL--价值学习(DQN、SARSA算法)
Q⋆Qsa;wQ∗sa。原创 2023-03-20 20:42:15 · 386 阅读 · 0 评论 -
强化学习DRL--策略、动作价值、状态价值
状态的随机性来自于状态转移函数。当状态 s 和动作 a 都被确定下来,下一个状态仍然有随机性。原创 2023-03-18 20:38:57 · 260 阅读 · 0 评论 -
深度学习模型的技巧
预训练模型的训练需要大量的计算资源和时间,但是,通过预训练模型可以提高模型的准确性和泛化能力,并减少模型的训练时间和数据量要求。无头微调(Headless Fine-tuning):在预训练模型的基础上,移除模型的分类层,添加新的分类层,并对整个模型进行微调。预训练模型可以通过大规模无标注的数据集进行训练,提取数据的通用特征,然后在其他任务上使用迁移学习进行微调,以解决特定的任务。选择合适的预训练模型:根据任务的特点选择合适的预训练模型,例如对于自然语言处理任务,可以使用BERT、GPT等预训练模型。原创 2023-03-16 21:10:16 · 505 阅读 · 0 评论 -
自注意力机制和transformer
计算attention score,然后通过Soft-max层归一化(其他激活函数也行);下一步是进一步从attention score提取信息,得到考虑了所有上下文的向量:再来看看矩阵运算的过程:计算attention score的过程:总结:只有矩阵qkv需要从学习训练得到。原创 2023-03-03 21:53:09 · 418 阅读 · 0 评论 -
第二章 线性代数
奇异矩阵一个列向量线性相关的方阵称为奇异矩阵Lp范数∣∣x∣∣特征向量行列式记作 det(A),是一个将方阵 A 映射到实数的函数。行列式等于矩阵特征值的乘积。行列式的绝对值可以用来衡量矩阵参与矩阵乘法后空间扩大或者缩小了多少。如果行列式是 0,那么空间至少沿着某一维完全收缩了,使其失去了所有的体积。如果行列式是 1,那么这个转换保持空间体积不变。原创 2022-11-29 23:02:22 · 154 阅读 · 0 评论