多智能体深度强化学习
文章平均质量分 75
多智能体深度强化学习重要知识点整理
安城安
电气工程与软件工程的双学位学士,电气工程硕士,拥有在众多知名企业和实验室的工作经历,如清华大学计算机系智能技术与系统国家重点实验室等。技术有着深厚的兴趣,积极参与各类社会活动,担任多个组织的要职。个人网站anchengan.top
展开
-
深度强化学习DQN训练避障
深度Q网络(DQN)是深度强化学习领域的一项革命性技术,它成功地将深度学习的强大感知能力与强化学习的决策能力相结合。在过去的几年里,DQN已经在许多复杂的问题上展示了其卓越的性能,从经典的Atari游戏到更复杂的机器人控制任务。特别值得一提的是,DQN在处理高维状态空间和动作空间的问题时表现出了显著的优势,使得它能够处理传统强化学习方法难以解决的难题。二维环境避障问题是强化学习领域的一个经典问题,它要求智能体在二维空间中移动,同时避免与障碍物碰撞。原创 2023-12-27 17:32:44 · 1447 阅读 · 6 评论 -
强化学习qlearning-小安子历险记代码实现
Q-learning的目标是找到每个状态-动作对的最优Q值。Q-learning通过不断迭代执行动作、更新Q值的过程,逐步收敛于最优的Q值函数。最终,它可以使用最优的Q值函数来选择最优的动作,从而解决MDP问题。其中,Q(s, a)表示在状态s下选择动作a的Q值,α是学习率,r是当前状态下选择动作a后获得的奖励,γ是折扣因子(用于平衡当前奖励和未来奖励的重要性),s'是执行动作a后观察到的新状态。Q值的更新使用了贝尔曼方程,该方程表示一个状态的Q值应该等于该状态下选择每个可能动作的预期回报的最大值。原创 2023-09-13 10:35:42 · 244 阅读 · 0 评论 -
深度强化学习 DDPG算法 确定性行为策略 策略网络 探索策略 Q网络 软更新 连续型动作 离散型动作
所谓确定性行为策略,就是一个函数,使得每一步的动作可以通过计算得到。使用一个CNN对函数进行模拟,这个CNN网络被称为策略网络,参数为。智能体在训练的过程中,要兼顾探索和更新。探索是为了探索到完整的动作状态空间,因此引入随机噪声,以将动作的决策过程由确定性转变为一个随机性过程,再从这个随机过程中采样得到动作值。这部分探索噪声只在训练的时候要用到。用另一个神经网络对Q函数进行模拟,参数为。ddpg算法使用软更新以保证训练更加稳定。一定的动作空间内,当前时间步与下一时间步的动作取值具有相关性。汽车的方向盘角度,原创 2022-06-20 22:23:30 · 1687 阅读 · 0 评论 -
深度强化学习 DQN算法
DQN算法,英文名为Deep Q Network,被称为深度Q网络,其将深度神经网络结合了Q-learning。传统的Q-learning使用表格的方式记录状态、动作对应的Q值,这样的方法在处理大规模问题上会占用极大的内存,可能存在的状态数量过于庞大无法列出表格,即维度爆炸。因此科学家们将神经网络与Q-learning进行结合,用神经网络就不再需要表格来记录Q值。DQN算法与q-learning的训练原理都是最大化未来的奖励。DQN算法与很多强化学习算法使用bellman方程迭代更新估计动作价值函数不同,因原创 2022-06-19 16:03:28 · 2057 阅读 · 3 评论 -
深度强化学习 记忆存放
深度强化学习,英文名为Deep Reinforcement Learning,简称DRL。深度强化学习随着深度学习受人们的关注而不断兴起,随着算力的不断提升,深度学习得到了发展。深度学习的多层网络结构能够对图像进行处理,帮助智能体处理状态并加以学习。深度强化学习和传统强化学习算法的区别就是用到了神经网络。在深度强化学习中直接用神经网络进行简易的Q学习算法会产生震荡或者发散,原因如下:1.数据是序列化的,采用相关的时间连续的样本,不是独立的分布。2.微小的Q值变动会剧烈地影响策略,策略可能会震荡从一个极端摇摆原创 2022-06-18 15:11:51 · 675 阅读 · 0 评论 -
深度学习 机器学习 深度学习概述
目录一.机器学习二.深度学习2.1概念介绍2.2人工神经网络2.3神经网络特点三.pytorch简介四.cuda简介 机器学习,英文名为machine learning,是人工智能的分支,其研究内容为如何通过计算的方法,利用经验让计算机系统变得更加智能。 机器人从经验中获取知识,经验中包含一些特征可以帮助机器人学习。起初,人们采用“试错”的方法提取特征,也就是所谓的“特征工程”。人们逐渐发现有些具体任务的数据难以提取特征,于是人们尝试将特征学习让机器自动完成,即“表示学习”。原创 2022-06-17 14:11:49 · 300 阅读 · 0 评论 -
强化学习 时间差分算法 TD SARSA Q-learning
目录编辑一.时间差分算法二.SARSA算法2.1算法介绍2.2算法优缺点三.Q-learning算法3.1算法介绍3.2算法优缺点 时间差分算法可以利用智能体在环境中时间步之间的时序差,通过学习由时间间隔产生的差分数据对强化学习问题进行求解。动态规划法可以求解基于模型的强化学习任务,蒙特卡洛法虽与之结合能求解无模型强化学习问题,但具有数据方差大、收敛速度慢的特点。 时间差分法与蒙特卡洛法都是基于采样数据估计当前价值函数,区别是时间差分法使用动态规划中自举方式计算当前价值函数,原创 2022-06-16 20:25:35 · 660 阅读 · 0 评论 -
强化学习 蒲丰投针实验 蒙特卡洛算法
目录一.蒲丰投针实验1.1背景故事1.2原理介绍二.蒙特卡洛方法2.1方法介绍2.2经验轨迹2.3在线学习与离线学习2.4数学原理1777年,蒲丰请朋友来家做客。他在一张白纸上画了许多等距的平行线,又准备了许多质量均匀、长度为平行线间距一半的小针。他和朋友们随意将针投在白纸上,计算所有针数量与平行线相交的针的数量的比值,发现结果近似等于圆周率。这样一个实验其实是一个概率分布问题。证明这个问题需要下面这张图:如上图所示,假设一根针与距离最近的直线夹角为θ,取针的中点,并通过该中点向距离其最近的直线作长度为x的原创 2022-06-15 14:37:13 · 807 阅读 · 0 评论 -
强化学习 动态规划 策略评估 策略改进 策略迭代 有模型 无模型
目录一.动态规划1.1核心思想1.2异步动态规划二.策略评估与改进2.1有模型学习与无模型学习2.2策略评估2.2.1输入2.2.2输出2.2.3迭代过程2.3策略改进2.3.1输入2.3.2输出2.3.3迭代过程2.4策略迭代动态规划,英文名Dynamic Programming,简称DP。其核心思想为:1.分解原问题为若干子问题,通过求解子问题,得到原问题的解。2.分解得到的多个子问题省去重复问题的计算过程。异步动态规划英文被称为Asynchronous Dynamic Programming,能够高效原创 2022-06-14 16:10:05 · 614 阅读 · 0 评论 -
强化学习 策略 价值函数 bellman方程 贝尔曼方程
策略即状态到动作的映射,在强化学习中,智能体与环境不断进行交互,慢慢学习得到一个最优的策略。当智能体采用某策略时,无论何时,输入固定的状态state都会得到接下来需要执行的固定动作a,经过一段时间的执行与和环境的交互后,智能体在该策略下形成的累积奖励期望被称为价值v。策略可以分为确定性策略与随机性策略 确定性策略,英文被称为Deterministic Policy。用公式可以表示为,表示给定策略根据状态s选择动作a。由于这是一个中间没有出现概率的确定性过程,因此不需要进行选择。在其中,策略表示原创 2022-06-13 11:11:48 · 1048 阅读 · 0 评论 -
强化学习 马尔可夫决策过程 有限马尔可夫决策 部分可观测马尔可夫决策
马尔可夫决策(MDP)是强化学习中智能体与环境进行交互的实现方式。我们把状态及其状态信号的属性称为马尔可夫性质,在马尔可夫性质中,每一步环境对智能体的反馈仅取决于上一步的状态state与动作action,与之前的行走过程没有关系。在序列决策问题中。智能体的目标是通过选择合适的动作以保证长期奖赏能够最大化,每个动作都会影响长期的训练效果。其中长期奖赏是很重要的,有时候智能体会为了长期奖赏而牺牲短期奖赏。MDP的动作不仅影响当前的即时收益,还影响后续的状态以及未来的收益。划线涂成棕色的话看似是矛盾的,但其实他俩原创 2022-06-11 11:10:06 · 1160 阅读 · 0 评论 -
强化学习概述 什么是强化学习
目录一.强化学习1.1定义1.2组成二.应用2.1初出茅庐2.2无人驾驶2.3游戏示意图如下所示: 强化学习的各个组成元素的定义如下:2015年10月,Google的Alphago以5:0完胜欧洲冠军樊麾。2016年3月,韩国顶级职业选手李世石以1:4败于alphago。2016年12月29日晚到2017年1月4日,注册名为Master的alphago在围棋对战网上标注为“韩国九段”接连踢馆击败了数名世界冠军。随着人们对强化学习的不断研究,其又在电子游戏、投资管理、发电站控制、智能机器人等得到了应用。在无人原创 2022-06-08 22:27:22 · 531 阅读 · 0 评论