帮我满绩的多智能体系统期末开卷提纲

最新推荐文章于 2024-09-04 14:24:09 发布

550A

最新推荐文章于 2024-09-04 14:24:09 发布

阅读量856

点赞数 17

文章标签：人工智能

本文链接：https://blog.csdn.net/m0_65079225/article/details/141431592

版权

1.Agent性质:举例可以自然agent,羊群的羊,自主传输机器人

自治性:对行为及自我状态进行控制、移动搬运物品

反应性:可感知环境并根据环境变化作出反应识别,避开障碍物

目标主动性:基于既定目标主动发起行为接受自然语言命令

社会交互性:通过群体合作与协调实现设计目标（无人机群）

体系架构：基于推理、反应、分层、信念

分类方式：体系架构，附加属性（可移动、可协作agent）

多智能体系统（MAS）能力: 感知,相互通讯,计算,控制

特性:分布式、开放性、动态性

交互结构举例:纯分布式联盟结构等级层次结构

交互结构特征：小世界、无标度（幂律分布）、网络层次

应用举例：足球机器人协作配合

2Agent基本形式化:A=<R资源,Loc局部信息,Obj目标,S行为策略>（举例自动驾驶汽车、足球机器人、智能家居机器人）

MAS=<A智能体集合,E交互链接,Obj目标,Rule系统规则>

多智能体系统问题求解: 复杂性维度规划期具体举例

高层,低层(更多细节)抽象

表示：知识层到符号层

推理:简化环境,建agent

可满足解,近似最优解,可能解

3多智能体交互结构表示方法:图(A智能体,E交互链接)

度量指标：度k、平均路径长度L=112AA-1ai,aj∈Adij（1/2）

聚类系数（Ei表示节点的邻居之间存在的实际边数；2.Ki表示节点ai的邻居个数）Ci=Ei12ki(ki-1)

平均聚类系数C=Ci|A|，全局聚类系数

基本模型:全局耦合网络、k=A-1，L,C全为1

1,聚类性2,小世界性质 3,便于协调

最近邻… (任意节点均与其左右k/2(偶)个邻居节点相连)k=k,L≈A/2k,C=3(k-2)/4(k-1) 聚类性,不具有小世界,难以全局协调

星状网络k=1,L=2(A-1)/A C=0 具有小世界,便于协调,鲁棒性差

随机…K=p(A-1) L正比lnA/lnK C=p具有小世界,p小无高聚类

WS小世界模型:1.建立规则图（最近邻耦合网络）2.随机化重连（以概率p将另一点链接）

NW…:1.建立规则图（同上）2.随机化加边（以概率p在任意一对节点间增加边）ws:k=k nw: k=k+p(A-1) CWS=3(K-2)4(K-1)(1-p)3CNW=3(K-2)4(K-1)+4Kp(p+2)

无标度网络BA:1.网络增长特性:建立n个节点网络，每次增加一个节点链接到已有的m个节点上2.优先链接特性(新节点与已存在节点a建立链接的概率pi=ki/Σkj) 幂律:倾向于度大节点

Lscale-free=lnNlnlnN

度中心性(度越大越重要)介数中心性(最繁忙节点)接近中心性

交互链接:强链接与弱链接:如果两个节点的共同邻居在所有邻居中比例越高，则认为这两个点间的连接强度越大。

平衡交互结构（+++）（+--）看是否能分成组或都是好朋友

4多智能体协作：解决效率问题

集中式协作方式:决策并集中控制，自上而下层次控制结构

主要方法:集中式协商 (投票协商);运筹学方法;集中式学习方法

优:协调性较好;可得到全局最优解劣:实时性,动态性差

分布式协作方式:自行处理信息,与其他智能体通讯协调

主要方法:合同网模型,分布式黑板模型,分布式学习;博弈论

优:有较好的容错能力和扩展能力,不需要集中控制单元

劣:对智能体间通讯要求较高,多边协作效率低,难实现全局目标

黑板模型:知识源KS(条件-动作)+黑板+监控机制（根据问题求解状态(黑板)+求解技能(各KS)依据某种控制策略，动态选择和激活合适的KS，使知识源能实时地响应黑板的变化）

中心式:简单易行,易产生性能瓶颈分布式:可靠性强,灵活性强

模型特点:1.黑板模型各主体(即KS)之间相互独立，主体之间不存在相互作用2.黑板模型能够灵活表示信息3.黑板模型使用共同的交互语言4.黑板模型具有独立的监控机制5.黑板模型适合于在多重抽象级上描述与处理问题6.黑板模型是机遇问题求解机制，适合于事先无法确定问题求解次序的复杂问题7.黑板模型提供了集成现有软件的方法，适用于软件开发

合同网模型：管理者+工作者

管理者：1,对每一待求解任务建立任务通知书Task-Announcement,发给工作者2,接收并评估投标3,从中选择最合适的工作者,建立合同Contract4,监督任务完成,综合结果

工作者1,接收任务通知书2,评价自己资格3, 对感兴趣子任务返回任务投标4, 若投标被接受,按合同执行任务5,向管理者报告求解结果

任务通知书:1,收件人Addressee一个或多个可能求解任务主体2,资格说明Eligibility Specification规定投标主体应满足条件3,任务简述Task Abstraction任务简要描述，是工作者决策是否投标依据4,投标说明Bid Specification向各主体说明投标必须提供信息5终止时间Expiration time接收投标截止时间

模型特点:1,合同网任务的产生、任务的分配、管理者、合同者的产生均是动态的,其灵活性较好2,订立合同需要预先订立协议.任务不明确的大规模,动态环境下的任务分配问题,管理者并不了解实时情况下有哪些智能体可以完成任务3,当更有能力的主体在合同建立之前处于忙状态时,管理者只能选择一个有限能力的智能体,也即解可能不是最优的4.忽略了任务之间可能存在的各种关联,更适用于任务能够较容易地独立分解,即分解后各个的子任务之间不存在相相互作用的问题5各智能体间以广播的方式互相通信,若智能体数量多则通信效率较低

联盟模型:单个智能体无法解决问题(实例邮递员问题)

形成过程:产生联盟结构:找到能够达成目标的智能体构成联盟；任务分配:将可能的联盟的资源和任务进行组合分配,求得相应的联盟值,用于评估联盟的收益,并根据收益进行任务分配;

效用分配:为保证联盟中的智能体能够长期稳定的在当前联盟中提供资源，需进行合理的收益分配。

博弈基本要素：参与者、策略集、收益

基本假设:已知的收益矩阵,理性的参与者,独立的决策(结论:选择严格占优策略;理性个体选择可能会得到群体收益次优结果)

最佳应对:(对于策略)>=其他策略严格最佳应对:=

占优策略:(参与者)都是最佳应对严格占优策略同上

纳什均衡: S，T互为最佳应对的策略组(S,T)

多重均衡:协调博弈存在两个纳什均衡:(a, a),(b, b)

这种博弈,通常参与者会选择收益更高的纳什均衡点

零和博弈(警察小偷):不存在纯策略纳什均衡(混合策略:一定概率选择策略)

⭐混合策略纳什均衡:甲采用混合策略p为乙采用混合策略q的最佳应对;乙采用混合策略q为甲采用p的最佳应对

甲混合策略p乙纯策略收益E_payoff乙(p, S)=E_payoff乙(p, T)

迭代剔除:剔除劣势策略

重复博弈：有限次重复博弈(囚徒)、无限次…

无限重复PD策略:allC,allD,Grim,以牙还牙TitFotTat(TFT)

当R/(1-d) > T+dP/(1-d) 即d > (T-R)/(T-P)）时，（TFT，TFT) 为纳什均衡，合作得以维持，囚徒走出困境

Grim:对手选择D之前选择C,当对手选择D后,一直选择D

TFT’ :在第一轮选择D策略，随后选择对手上一轮采用的策略

当R/(1-d) > (T+dS)/(1-d2)（即d > (T-R)/(R-S)）时，（TFT，TFT) 为纳什均衡，合作得以维持，囚徒走出困境。

5自组织self-organization概念:组织:1系统内部按照一定规则形成的特定结构和功能2系统中的要素按照某种指令形成特定结构和功能的过程——组织化3组织化的必要条件:信息

自组织：系统的要素通过彼此的相干性、协同性或某种默契而形成的特定结构和过程

自组织特点:局部化和分散化,简单个体自组织完成复杂任务

行为特征：没有明确外部控制、分散控制、动态性和进化性

分类(是否有明确控制中心):弱自组织系统(有)、强自组织系统

基于直接交互的自组织结构:(连接一个取消一个)优点:简单,高效缺点:智能体数量过大时收敛速度慢,不适用于大规模系统

基于度链接优点:拥有很多连接的个体,一般能较快的学习到主流策略,所以与度最大的个体建立连接可以更快的完成学习

基于表现链接优点:通常使用好策略的agent收益会更高,与收益高的agent建立连接可以更好的学习到这种策略

随机全局链接、全局建议链接

间接交互:信息通过中介进行交互

中心节点:优点:公平,安全缺点:效率低,具有单点故障的问题

中介节点:执行+中介 agent状态切换机制(实现负载平衡)

优:提升效率,负载平衡劣:中介进行链接切换,有一定系统开销

能力资源自组织:（给定方法,用一些例子进行说明）

基于强化的资源自组织机制:先分配，后根据负载率等调整

基于贪心…:优先满足当前表现最好的;简单表现好;不够灵活

基于市场…:动态调整价格agent支付价格购买;灵活,鲁棒性好

例如：云计算、股票价格波动

基于拍卖…:招标投标中标;可靠性高，灵活性强

任务分配集中式:实现简单,具备产生全局最优解潜力,适用于小规模系统整数规划、搜索算法A*,启发式、智能优化,遗传算法

分布式:可并行计算,可快速计算方案,对动态环境效果好,适用于大规模系统基于行为激励,市场机制(合同网,拍卖)、空闲链

负载均衡静态: 根据当前状态调整可很好实现某个时刻的负载均衡;对未来的负载情况无能为力;动态任务环境下开销较大

方法：基于博弈论，任务信息的负载平衡

动态: 利用历史信息预测可以缓解未来负载不均衡情况,减少系统计算负载均衡的开销,适用于动态任务环境

方法：基于指数平滑方法，服务复制与转移的负载平衡

6群体现象:个体决策+系统规则

群集策略演化:

演化稳定策略S:当某个具有原始策略S的系统,产生了采用策略T的突变个体;如果经过演化,采用T的突变个体最终消失。

S演化稳定条件:payoffS > payoff(Δ为无穷小量)pfSS > pfTS

策略演化稳定性: 严格纳什均衡（pfSS > pfTS），

弱纳什均衡(pfSS = pfTS),若pfST > pfTT,S是演化稳定策略

经典系统规则:

亲属选择,直接互惠{TFT, AllD},间接互惠:信誉机制q匹配

群集信息传播:线性阈值:激活后向外传播,

独立级联模型:激活概率(每个节点只有一次机会激活邻居节点)

传染病模型

SI ds=-βs(t)i(t) i0

SIR ds=-βs(t)i(t) di=βs(t)i(t)-γi(t) dr= γi(t) i0 s0

SIS ds=-βs(t)i(t)+ γi(t) di=βs(t)i(t)-γi(t) i0

SIRS ds=-βs(t)i(t)+δr(t) di=βs(t)i(t)-γi(t) dr=γi(t)-δr(t) i0 s0

SEIR ds=-βs(t)i(t) de=βs(t)i(t)-we(t) di = we(t)- γi(t) dr= γi(t)

E0 i0 r0

7群集运动:系统中个体行为规则时间演化形成规律性的场景

群体行为理论是基础核心; 信息交互方式:分布式协议

典型:多无人机系统,工业环境下多机器人系统,城市交通网络

一致性:多智能体系统个体调整更新行为,最终每个个体相同

群一致性: 多智能体个体被划分成若干个子群，同一个子群中的个体趋于同一状态，同时不同子群中的个体趋于不同

Boid规则:分离 (避免碰撞),对齐 (方向统一),聚合 (群体聚合)

路人模型:

多机器人追逃问题：

550A

关注

17
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
帮我满绩的多智能体系统期末开卷提纲

当R/(1-d) > (T+dS)/(1-d2)（即d > (T-R)/(R-S)）时，（TFT，TFT) 为纳什均衡，合作得以维持，囚徒走出困境。当R/(1-d) > T+dP/(1-d) 即d > (T-R)/(T-P)）时，（TFT，TFT) 为纳什均衡，合作得以维持，囚徒走出困境。(任意节点均与其左右k/2(偶)个邻居节点相连)k=k,L≈A/2k,C=3(k-2)/4(k-1) 聚类性,:将可能的联盟的资源和任务进行组合分配,求得相应的联盟值,用于评估联盟的收益,并根据收益进行任务分配;
复制链接

扫一扫