自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

原创 Vscode配置C++环境

Vscode配置C和C++环境

2024-04-18 12:36:22 189

原创 Git学习

git clone https://gitee.com/mingze27/myproject.gitgit add .git commit -m 'test'git push origin master

2021-11-15 16:51:16 419 1

原创 Android学习

线性布局-LinearLayout<?xml version="1.0" encoding="utf-8"?><LinearLayout xmlns:android="http://schemas.android.com/apk/res/android" xmlns:app="http://schemas.android.com/apk/res-auto" xmlns:tools="http://schemas.android.com/tools" androi

2021-11-13 14:04:11 1342

原创 小组汇报(2021-11-09)

博弈论子博弈精炼纳什均衡猎鹿博弈重复博弈无Gift:重复猎兔猎兔的纳什均衡有Gift:单一状态Gift可能不为0,为了后面的合作,获取更高的收益,相当于引入了新的纳什均衡点强化学习+博弈论拓展...

2021-11-09 12:05:08 238

原创 研究问题-2021.10.19

研究方向:将社交网络理论迁移到多智能体通信上已解决问题通信代价:通信后的成本-无通信的成本作为通信的价值通信的时间:什么时候通信,只有在出现多个选择,并且选择不同会产生偏离的时候才会发起通信通信内容:部分观测和动作意图多智能体动态的变化:构建潜在影响网络,通过潜在影响网络静态化应用场景:寻找一个社交网络的典型理论,应用到多智能体场景中待解决问题没用找到顶会文章,做这个方向社交网络具体理论不会查找强化学习的马尔可夫决策可能不足以解决社交网络的问题...

2021-10-19 14:41:00 75

原创 A Penny for Y our Thoughts: The Value of Communication in Ad Hoc Teamwork()

摘要在特殊的团队合作中,多个代理需要在不了解他们的队友或他们的计划的前提下进行协作。在这个研究领域,一个常见的假设是代理不能通信。然而,就像两个随机的人可能说同一种语言一样,自治的团队成员也可能碰巧共享一个通信协议。本文考虑了如何利用这种共享协议,引入了一种方法来推理Ad Hoc团队通信(CAT)。这项工作的目标是通过明智地利用团队通信能力来实现改进的Ad Hoc团队。我们将我们的研究置于一个新的CAT场景中,包括多个步骤的任务,队友的计划会随着时间的推移而公布。在此背景下,本文提出了对通信的时间和价值进

2021-10-14 15:04:28 286

原创 方向(2021.09.27)

传统社交网络方法的弱点在于缺乏动态交互。为此,建议使用博弈论来分析不同的场景。通过算法、模型和实证方法分析参与者、行动、策略、回报、均衡和结果。这些因素刻画了博弈模型,并提出了每个参与者的利润函数。大多数博弈论在社会网络研究中的应用都是关于个体的行为以及这些个体之间的战略互动。大多数以前的研究人员首先分析了这个问题,然后建立了一个博弈论模型。博弈论模型将每个节点描述为一个自私的节点,它可以选择自己增加收入的动机,状态就是博弈策略。...

2021-09-27 20:49:08 49

原创 Game Theory and Machine Learning in UAVs-Assisted Wireless Communication Networks: A Survey(CoRR-21)

摘要近年来,无人机(UAVs)已被用于建筑、商业交付、军事和民用战区等领域。随着应用的增加,对资源分配和能源管理的高级算法的需求也随之增加。众所周知,博弈论和机器学习是已经广泛应用于无线通信领域的两个强有力的工具,关于博弈论和机器学习在无线通信中的应用有很多研究。然而,现有的调查都集中在博弈论或机器学习,由于这一事实,目前的文章研究了在无线通信网络(U-WCNs)无人机中使用的博弈论和机器学习算法。本文还讨论了如何将博弈论和机器学习相结合来解决U-WCNs中的问题,并确定了未来的研究方向。引语无人机(

2021-09-27 13:05:57 1978

原创 A Survey of Game Theory as Applied to Social Networks

摘要社交网络服务不仅可以帮助人们建立关系,结交新朋友和新伙伴,还可以帮助处理个人信息,分享知识,管理社会关系。社交网络实现了有价值的沟通和协作,带来了额外的商业机会,具有巨大的社会价值。利用假设、定义、分析、建模和优化策略对社会网络问题进行研究是有效的。本文调查了博弈理论在社会网络应用中存在的问题,并将其应用场景分为四类:信息扩散、行为分析、社区检测和信息安全。读者可以清晰地掌握每一个类别的知识应用。最后,在近几年研究的基础上,讨论了博弈论的局限性,并提出了未来社会网络研究的方向。引言传统的社交网络方

2021-09-27 12:31:27 215

原创 Unity:一个通用的智能体平台

摘要人工智能的最新进展是由越来越真实和复杂的模拟环境的存在推动的。然而,许多现有环境要么提供不现实的视觉效果,不准确的物理,低任务复杂性,受限的代理视角,或人工代理之间的交互能力有限。此外,许多平台缺乏灵活配置仿真的能力,使得仿真环境从学习系统的角度来看是一个黑箱。在这项工作中,我们提出了一种现有模拟平台的新分类,并讨论了能够开发具有丰富的视觉、物理、任务和社会复杂性的学习环境的最高级别通用平台。我们认为现代游戏引擎非常适合作为通用平台,并以Unity引擎和开源Unity ML-Agents Toolki

2021-09-25 23:39:25 1103 1

原创 学习-共享:利用计算约束和参数共享的硬件友好迁移学习框架(2021-ICML)

摘要针对预先训练过的变压器的特定任务微调在多个NLP任务中取得了性能突破。Y等,由于计算量和参数大小都是随子任务数量线性增长的,由于计算设备上不现实的内存和计算开销,这种方法越来越难以应用到现实世界中。之前关于微调的工作重点是通过共享参数来减少不断增长的参数大小以节省存储成本。然而,与存储相比,计算约束是现代计算环境中微调模型的一个更为关键的问题。在这项工作中,我们提出了一个在多个任务中利用计算约束和参数共享的框架——LeTS 。与传统的微调相比,LeTS提出了一种新的神经体系结构,它包含一个固定的预训练

2021-09-16 10:32:27 633

原创 多智能体协作的注意交流学习(NeurIPS-2018)

摘要通信可能是多智能体合作的一种有效方式。然而,在所有代理之间或在现有方法采用的预定义通信体系结构中共享信息可能存在问题。当存在大量的agent时,agent无法将有助于合作决策的有价值信息与全局共享信息区分开来。因此,交流对多智能体合作的学习几乎没有帮助,甚至会影响学习。另一方面,预定义的通信体系结构限制了代理之间的通信,从而抑制了潜在的合作。为了解决这些困难,本文提出了一个注意沟通模型,该模型学习何时需要沟通以及如何整合共享信息以进行合作决策。我们的模型导致了大规模多智能体合作的高效和有效的沟通。在经

2021-09-13 23:49:32 944

原创 多机器人编队的在线任务分配与协调(IEEE-RAL-2021)

关键词异构任务分配摘要我们提出了一个松散耦合的任务分配,运动规划,协调和控制的一体化框架下的异构车队的非合作任务。该方法考虑了一个重要的现实需求,即任务可以异步发布。我们利用系统搜索来实现最优任务分配,其中干扰被认为是一个代价,并根据机器人的动力学模型和当前状态的知识进行估计。安全由在线协调算法保证,其中没有碰撞是一个硬约束。对任务分配中干扰代价的权重与计算开销之间的关系进行了实证分析,并与采用局部搜索算法的任务分配方法进行了比较。正文实现自主机器人车队需要解决几个问题:任务分配问题,即

2021-09-07 15:30:03 1218 2

原创 多智能体协同传输的事件触发通信与控制的深度强化学习(ICRA-2021)

摘要本文探讨了一种多智能体强化学习方法来解决多智能体协作传输的通信和控制策略设计问题。典型的端到端深度神经网络策略可能不足以覆盖通信和控制;这些方法不能决定通信的时间,只能工作在固定速率的通信。因此,我们的框架采用了七触发架构,即一个反馈控制器,计算通信输入,以及一个触发机制,决定输入何时必须再次更新。利用多智能体深度确定性策略梯度,可以有效地优化此类事件触发控制策略。通过数值模拟,我们证实了我们的方法可以平衡传输性能和通信节省。引语应用协同运输是多智能体系统中的一个重要任务,在配送服务、工厂物流、

2021-09-07 11:23:34 1978 2

原创 QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning

摘要在许多现实环境中,一组代理人必须协调他们的行为,同时以分散的方式行事。同时,通常有可能在模拟或实验室环境中以集中的方式训练代理,其中全局状态信息可用并且通信约束被解除。学习联合行动以额外的全局信息为条件的价值观是利用集中学习的一种有吸引力的方式,但提取分散政策的最佳策略尚不清楚。我们的解决方案是QMIX,这是一种基于价值的新方法,可以以集中的端到端方式训练分散的策略。QMIX采用了一个网络,该网络将联合行动值估计为每个代理值的复杂非线性组合,该组合仅基于本地观察。我们在结构上强制联合行动值在每个代理的

2021-08-01 12:32:26 669

原创 表格型方法-讲解基于价值方法去求解强化学习

MDP(S, A, P, R,r)五元组Model-based当我们知道 P 函数和 R 函数时,我们就说这个 MDP 是已知的,可以通过 policy iteration 和 value iteration 来找最佳的策略。如果知道这些状态转移概率和奖励函数的话,我们就说这个环境是已知的,因为我们是用这两个函数去描述环境的。我们其实可以用动态规划去计算,很多强化学习的经典算法都是 model-free 的,就是环境是未知的。Model-free我们是处在一个未知的环境里的,也就是这一

2021-07-30 12:03:01 98

原创 马尔可夫决策过程(Markov Decision Process,MDP)

马尔科夫链如果一个状态转移是符合马尔可夫的,那就是说一个状态的下一个状态只取决于它当前状态,而跟它当前状态之前的状态都没有关系。马尔可夫奖励过程马尔可夫决策过程(MDP)...

2021-07-26 16:19:07 291

原创 Value-Decomposition Networks For Cooperative Multi-Agent Learning(VDN)

摘要研究了具有单个联合奖励信号的合作多智能体强化学习问题。这类学习问题很难,因为组合的动作和观察空间往往很大。在完全集中和分散的方法中,我们发现了虚假奖励的问题和一种我们称之为“懒惰代理”的现象,这是由于部分可观察性而产生的。我们通过用一种新的价值分解网络体系结构训练个体代理来解决这些问题,该体系结构学会将团队价值函数分解成代理式价值函数。我们在一系列部分可观察的多智能体领域进行了实验评估,结果表明,学习这种价值分解会带来更好的结果,尤其是当与权重共享、角色信息和信息渠道相结合时。引语...

2021-07-26 10:19:20 627

原创 LSwarm:复杂城市场景下覆盖受限的大集群高效避碰(Swarm-2019)

摘要在本文中,我们讨论了用于城市环境连续监视的无人机群的避碰问题。我们的方法LSwarm有效地避免了在三维城市环境中与静态障碍物、动态障碍物和其他智能体的碰撞,同时考虑了覆盖约束。LSwarm计算碰撞避免速度,该速度(I)最大化智能体与全局覆盖策略给出的最优路径的一致性,以及(ii)确保每个智能体收集的覆盖数据的足够分辨率。我们的算法是基于ORCA(最优互惠碰撞避免)制定的,并且相对于群体的大小是可扩展的。我们评估了LSwarm在复杂城市模型中对一群四旋翼飞行器的真实模拟中的覆盖性能。在实践中,我们的方法

2021-07-15 21:42:18 372

原创 仿生机器鱼群体中三维水下集体行为的隐式协调(UnderWater-2021)

摘要许多鱼类成千上万地聚集在一起,看似毫不费力地和谐游动。大型鱼群展示了一系列令人印象深刻的集体行为,从简单的浅滩化到集体迁徙,从基本的捕食者躲避到诱饵球和闪光扩张等动态机动。大量的实验和理论工作表明,这些复杂的三维(3D)行为可以来自对附近邻居的视觉观察,而无需明确的交流。相比之下,大多数水下机器人集体依赖于集中的、水上的、明确的通信,因此,表现出有限的协调复杂性。在这里,我们展示了一群受鱼启发的微型水下机器人的3D集体行为,这些机器人只使用通过产生和感知蓝光介导的隐性交流。我们表明,复杂和动态的3D集

2021-07-15 20:32:30 867

原创 待看论文(2021.07.14)

群体智能领域的关键概念是涌现、复杂性、自组织和搜索。对这些主题的详细讨论超出了本文的范围,读者可以参考[6]和[10,34,35,59]中汇编的优秀文章。[6] Arshinov, V., Fuchs, C., 2003. Causality, emergence, self-organisation.NIA-Priroda Moscow.[10] Bonabeau, E., Marco, D.d.R.D.F., Dorigo, M., Théraulaz, G., Theraulaz,G., et a

2021-07-14 11:32:22 136

原创 协同异构多机器人系统:综述

研究背景我们所生活的世界的动态和不可预测的本质使得很难设计出一个能够有效地适应所有环境的自主机器人。因此,各种形状、大小和能力的机器人,如无人机、无人地面车辆、类人机器人等机器人。随着物联网(物联网)的出现,进行合作将大大增加自动化任务的范围。将这些设备集成在以下领域,如医疗保健、交通系统、应急响应系统、家务家务和老年人护理等,将使智能城市变得更加聪明本文贡献简要概述了更通用的多智能体系统(MAS)领域讨论了关于使用异构多机器人系统实现复杂任务自动化的文献展示了多机器人系统(MRS)的一个工作流

2021-07-12 21:07:07 6191 2

原创 多智能体强化学习

杂记广义而言,自动化系统可以通过两个关键的设计选择来表征:(1)他们从自己的观察中学习吗?和(2)他们是否从其他自动化系统的观察中学习?对于当今实践中使用的许多自动化系统来说,这两个问题的答案都是否定的。这些预编程的自动化系统在所有任务中重复相同的程序,经常采取不必要和浪费的行动。通过强化学习,自动化系统可以从以前的观察中学习[6,15,26,33,48]。然而,在实践中,自治系统观察世界的速度太慢,无法获取足够的学习数据,尤其是在最佳行动发生变化的非静态环境中。多智能体强化学习通过聚集来自多个智能体

2021-07-07 12:58:14 166

原创 一群飞行机器人探索未知环境的最小导航方案(UAV-2019)

摘要成群的微型飞行机器人在探索未知的室内环境方面具有巨大的潜力。它们的小尺寸允许它们在狭窄的空间中移动,它们的重量轻使它们在人类周围操作时安全。到目前为止,由于缺乏足够的导航策略,这项任务一直遥不可及。外部基础设施的缺乏意味着任何定位尝试都必须由机器人自己来完成。最先进的解决方案,如同步定位和映射,仍然对资源要求过高。本文介绍了群体梯度bug算法(SGBA),这是一种最小导航解决方案,允许一群微型飞行机器人自主探索未知环境,然后返回出发点。SGBA通过让机器人从出发点向不同的方向行进来最大化覆盖范围。机器

2021-07-04 16:53:39 1256

原创 自组织成群的灭火无人机:在分散的多机器人系统中利用集体智能的力量(Swarm-2019)

摘要群体智能关注从分散的自组织系统中出现的集体行为,而群体机器人是一种实现大量简单机器人自协调的方法,是群体智能在多机器人系统中的应用。鉴于野火发生的日益严重和频繁以及抗击其传播的危险性质,使用一次性廉价机器人代替人类具有特殊的意义。本文论证了采用消防机器人自主灭火的可行性和潜力,并重点介绍了实现理想消防行为的自我协调机制。因此,一个有效的基于物理的火灾传播模型和一个自组织算法被开发出来,并与基于粒子群算法的协作行为相结合,该粒子群算法适用于在高强度和高频率变化的物理动态环境中操作美国的实验表明,所提出的

2021-07-04 15:45:58 670

原创 基于多智能体强化学习的自主集群规划与部署(Arch-2021)

摘要自治系统(AS)通过不断观察周围环境的状态并朝着目标采取行动来执行复杂的任务。成群的AS协同工作比单个AS单独工作能更快更有效地完成任务。为了建立今天的集群,开发人员手工制作他们自己的软件,用于存储、聚集和从观察中学习。我们展示了Fleet Computer,一个开发和管理集群的平台。舰队计算机提供了一种编程范式,简化了多智能体强化学习(MALL)——一种协调群体智能体的新兴算法。仅使用程序员提供的两个函数Map()和Eval(),舰队计算机编译和部署集群,并不断更新控制动作的强化学习模型。为了节省计

2021-07-04 14:04:33 2019

原创 学习过程(强化学习)

数据分析NumpyPandas标题

2021-07-04 13:01:14 57

原创 Q-learning

2021-06-29 11:16:47 50

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除