基于群体熵的机器人群体智能汇聚度量

宋罗世家技术屋

于 2022-10-19 16:37:59 发布

阅读量135

点赞数

分类专栏：信息技术控制系统和理论专栏文章标签：机器人

本文链接：https://blog.csdn.net/qq_61890005/article/details/127411022

版权

信息技术控制系统和理论专栏专栏收录该内容

51 篇文章 1 订阅 ¥69.90 ¥99.00

订阅专栏

超级会员免费看

【摘要】群体行为往往能产生远超个体行为的价值和复杂度。为了在个体智能的基础上更有效地衍生出群体智能，需要基于群体熵来科学地衡量群体智能水平，并以群体熵为引导目标，推动群体智能的增强和演进。针对这个重要的科学问题，以无人小车群体为研究对象，提出基于参数共享和群体策略熵的多智能体soft Q learning算法，通过共享智能体的观测信息，并结合最大熵强化学习方法，实现探索型任务中群体策略的持续学习更新。同时，通过将群体熵定义为度量工具，刻画群体学习中熵变化模式，实现对群智汇聚过程的定量分析。

【关键词】 群体熵 ; 群体智能 ; 深度强化学习

0 引言

个体间的交互等行为让群体现象变得更加复杂，个体合作让群体发展出高于个体智能的更复杂的智能模式。人工智能的发展推动了人类社会的快速发展，在单体智能的基础上，群体智能模式应运而生。例如无人机（车）集群协同对抗、群体软件开发等复杂群体行为，都可以被视为群体智能的体现。不同时空节点上的个体通过通信、观测等方式，以竞争、合作等自主协同模式共同完成复杂任务，涌现出超越个体智能的群体智能。

对群体智能机理的研究主要从生物仿生和控制算法研究展开，一方面对生物体的群体行为进行仿生研究，主要包括模拟鸟群行为的Boids模型、自驱动粒子模型（Vicsek模型）、进化算法、蚁群优化算法、粒子群优化算法等；另一方面不断对控制算法进行提升，主要包括机器人集群控制算法以及强化学习算法，如Q-learning、PPO、多智能体强化学习等。

从上述分类可以看到，目前对群体智能的研究主要以模拟自然界和人类群体的群智行为来解决复杂问题，缺乏从机理层面对群智涌现

了解本专栏

超级会员免费看

宋罗世家技术屋

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
基于群体熵的机器人群体智能汇聚度量

随着深度强化学习的快速发展，强化学习模型在很多游戏场景中已经取得超越人类玩家的成绩。强化学习因其可适应环境动态变化的特点被认为是通往强人工智能的重要途径。本节主要介绍深度强化学习的整体框架与相关方法以及群体熵计算过程中采用的最大熵原理。1.1 马尔可夫决策强化学习以马尔可夫决策过程为基础框架，智能体通过感知和执行动作与环境进行交互，基于当前观测和输入产生自身的动作行为A，以动作与环境交互实现状态转移，获得环境反馈的奖励。笔者以马尔可夫决策过程为整体决策框架。
复制链接

扫一扫