![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 88
智能建造小硕
硕士研究生在读,智能建造方向,分享知识及日常学习经验,欢迎交流。
展开
-
多智能体深度确定性策略梯度(MADDPG)算法介绍及代码实现
多智能体深度确定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient, MADDPG)算法是一种在多智能体环境中使用的强化学习算法。这种算法是基于深度确定性策略梯度(DDPG)算法的扩展。MADDPG主要用于解决多智能体环境中的协作和竞争问题,特别是在智能体之间的交互可能非常复杂的情况下。下面将详细介绍MADDPG算法的核心概念和工作原理。原创 2024-04-08 19:47:16 · 4451 阅读 · 2 评论 -
强化学习中的 AC(Actor-Critic)、A2C(Advantage Actor-Critic)和A3C(Asynchronous Advantage Actor-Critic)算法
强化学习中的 A2C(Advantage Actor-Critic)算法是一种结合了演员-评论家(Actor-Critic)框架和优势函数(Advantage Function)的方法。A3C(Asynchronous Advantage Actor-Critic)算法是一种高效的强化学习方法,由 DeepMind 提出,主要用于解决决策问题。A3C 算法由于其高效性和适应性,在复杂的强化学习任务中被广泛应用,如游戏玩家、机器人控制等。然而,它的实现比 A2C 更为复杂,需要合理的资源分配和网络结构设计。原创 2023-11-18 16:04:09 · 1998 阅读 · 0 评论 -
Reinforcement Learning | 强化学习十种应用场景及新手学习入门教程
本文将分享强化学习的一些实际应用场景分享。原创 2023-05-25 23:24:10 · 3129 阅读 · 0 评论 -
有模型强化学习和免模型强化学习有什么区别?
在有模型强化学习中,智能体需要进行两个过程:学习环境模型和基于模型进行决策。基于模型预测的算法:例如模型预测控制(Model Predictive Control,MPC)和基于模型的强化学习(Model-Based Reinforcement Learning)等算法。有模型强化学习(Model-Based Reinforcement Learning)和无模型强化学习(Model-Free Reinforcement Learning)是两种不同的强化学习方法。原创 2023-05-21 17:11:00 · 1589 阅读 · 0 评论