深度强化学习
文章平均质量分 90
立Sir
专注于深度学习、机器视觉,代码涉及Python、TensorFlow、Pytorch。源码获取加VX:hitsz_zl
展开
-
【深度强化学习】(8) iPPO 模型解析,附Pytorch完整代码
IPPO(Independent PPO)是一种完全去中心化的算法,此类算法被称为独立学习。由于对于每个智能体使用单智能体算法 PPO 进行训练,所因此这个算法叫作独立 PPO算法。这里使用的 PPO 算法版本为 PPO-截断原创 2023-03-18 20:43:23 · 6955 阅读 · 10 评论 -
【深度强化学习】(7) SAC 模型解析,附Pytorch完整代码
Deepmind 提出的 SAC (Soft Actor Critic) 算法是一种基于最大熵的无模型的深度强化学习算法,适合于真实世界的机器人学习技能。SAC 算法的效率非常高,它解决了离散动作空间和连续性动作空间的强化学习问题。SAC 算法在以最大化未来累积奖励的基础上引入了最大熵的概念,加入熵的目的是增强鲁棒性和智能体的探索能力。SAC 算法的目的是使未来累积奖励值和熵最大化,使得策略尽可能随机,即每个动作输出的概率尽可能的分散,而不是集中在一个动作上。原创 2023-03-15 17:13:44 · 21138 阅读 · 37 评论 -
【深度强化学习】(6) PPO 模型解析,附Pytorch完整代码
近端策略优化算法PPO(proximal policy optimization),具备 Policy Gradient、TRPO 的部分优点,采样数据和使用随机梯度上升方法优化代替目标函数之间交替进行,但 PPO 提出新目标函数,可以实现小批量更新。PPO 算法可依据 Actor 网络的更新方式细化为含有自适应 KL-散度(KL Penalty)的 PPO-Penalty 和含有 Clippped Surrogate Objective 函数的 PPO-Clip。原创 2023-03-13 17:33:58 · 32079 阅读 · 24 评论 -
【深度强化学习】(5) DDPG 模型解析,附Pytorch完整代码
深度确定性策略梯度算法 (Deterministic Policy Gradient,DDPG)。DDPG 算法使用演员-评论家(Actor-Critic)算法作为其基本框架,采用深度神经网络作为策略网络和动作值函数的近似,使用随机梯度法训练策略网络和价值网络模型中的参数。DDPG 算法架构中使用双重神经网络架构,对于策略函数和价值函数均使用双重神经网络模型架构。原创 2023-03-12 20:46:37 · 32697 阅读 · 50 评论 -
【深度强化学习】(4) Actor-Critic 模型解析,附Pytorch完整代码
行动者评论家方法是由行动者和评论家两个部分构成。行动者用于选择动作,评论家评论选择动作的好坏。Critic 是评判网络,当输入为环境状态时,它可以评估当前状态的价值,当输入为环境状态和采取的动作时,它可以评估当前状态下采取该动作的价值。Actor 为策略网络,以当前的状态作为输入,输出为动作的概率分布或者连续动作值,再由 Critic 网络来评价该动作的好坏从而调整策略。原创 2023-03-11 19:11:25 · 17923 阅读 · 13 评论 -
【深度强化学习】(3) Policy Gradients 模型解析,附Pytorch完整代码
强化学习中策略梯度算法是对策略进行建模,然后通过梯度上升更新策略网络的参数。Policy Gradients中无法使用策略的误差来构建损失函数,因为参数更新的目标是最大化累积奖励的期望值,所以策略更新的依据是某一动作对累积奖励的影响,即增加使累积回报变大的动作的概率,减弱使累积回报变小的动作的概率。原创 2023-03-10 22:50:04 · 3735 阅读 · 0 评论 -
【深度强化学习】(2) Double DQN 模型解析,附Pytorch完整代码
Double DQN 算法是 DQN 算法的改进版本,解决了 DQN 算法过估计行为价值的问题。Double DQN 算法不直接通过最大化的方式选取目标网络计算的所有可能 Q 值,而是首先通过估计网络选取最大 Q 值对应的动作。在 Double DQN 框架中存在两个神经网络模型,分别是训练网络与目标网络。这两个神经网络模型的结构完全相同,但是权重参数不同;每训练一段之间后,训练网络的权重参数才会复制给目标网络。原创 2023-03-10 20:43:04 · 8662 阅读 · 11 评论 -
【深度强化学习】(1) DQN 模型解析,附Pytorch完整代码
DQN(Deep Q Network)是深度神经网络和 Q-Learning 算法相结合的一种基于价值的深度强化学习算法。DQN 同时用到两个结构相同参数不同的神经网络,区别是一个用于训练,另一个不会在短期内得到训练.通过采用第二个未经训练的网络,可以确保 “目标 Q 值” 至少在短时间内保持稳定。引入经验回放使得智能体在内存容量范围内从一开始就执行的所有动作和观察都将被存储。然后从此存储器中随机选择一批样本。原创 2023-03-10 18:35:12 · 30663 阅读 · 52 评论