探索多智能体系统中的责任感知与决策机制，在复杂系统中实现责任感知

本文链接：https://blog.csdn.net/m0_59163425/article/details/143694724

多智能体系统（MAS）在各个领域的应用越来越广泛。从自动驾驶汽车到智能制造，从金融交易系统到智能家居，MAS不仅提升了自动化水平，还显著提高了效率。然而随着这些系统在实际应用中的普及，如何确保它们在动态且不确定的环境中做出可信赖的决策，成为了一个重要的研究问题。在这个背景下，责任意识在自主系统的开发和部署中变得尤为重要。

11 月 6 日，来自英国阿伯丁大学、英国赫瑞瓦特大学的联合团队发表论文《Responsibility-aware Strategic Reasoning in Probabilistic Multi-Agent Systems》，他们主要关注在具有责任意识的概率多智能体系统中，进行战略推理的问题。具体而言，研究如何在多智能体环境中，引入因果责任的概念，使得智能体不仅关注自身的奖励和收益，还要考虑其行为对整体系统和其他智能体的影响。为了解决这个问题，研究团队提出了一种新型的逻辑框架，即责任感知的概率交替时间时态逻辑（PATL+R）。该逻辑框架能够在多智能体系统中，进行责任感知的战略推理，并通过综合联合策略，优化智能体间的责任分配和奖励分配。

研究团队的主要贡献和创新点

引入PATL+R逻辑：研究团队提出了一种新型的逻辑框架PATL+R，该框架在现有的概率交替时间时态逻辑基础上，加入了因果责任的模态，使得智能体在进行战略决策时，能够同时考虑责任和奖励。
责任感知的联合策略综合方法：研究团队提出了一种方法，能够综合满足PATL+R指定结果的联合策略，同时优化智能体间的责任和奖励分配。
责任意识的纳什均衡计算：研究团队利用纳什均衡作为战略推理问题的解决概念，并提出了一种基于参数模型检测的算法，计算责任意识的纳什均衡策略。这为在智能体间公平分配责任和奖励提供了理论依据。
PSPACE复杂度的模型检测：研究团队证明了对PATL+R公式的模型检测问题可以在PSPACE复杂度内完成，表明该问题的计算复杂度与现有的扩展rPATL逻辑模型检测问题相当。

研究团队的Chunyan Mu来自英国阿伯丁大学计算科学系，专注于多智能体系统、战略推理和责任感知计算。她的研究涉及开发和部署可信赖的自主系统；Muhammad Najib隶属于英国赫瑞瓦特大学计算机科学系，致力于多智能体系统和战略推理领域的研究。他的工作包括在动态和不确定环境中进行智能体的战略决策；Nir Oren也是英国阿伯丁大学计算科学系的成员，研究重点包括多智能体系统、策略推理和因果责任。他的研究为自主系统的信任和可靠性提供了关键支持。

这个研究团队结合了阿伯丁大学和赫瑞瓦特大学在计算科学和计算机科学方面的专业知识，致力于研究具有责任意识的概率多智能体系统中的战略推理问题。他们的工作在开发和验证自主系统方面具有重要意义，特别是在涉及因果责任和多智能体系统的战略决策时。

随机博弈的参数化模型

在这一部分，我们将详细探讨研究团队提出的并发随机多玩家博弈（CSG）和参数化随机多智能体系统（PSMAS）的定义，并通过示例进行分析，以帮助理解这些模型在责任感知战略推理中的应用。

并发随机多玩家博弈（CSG）的定义

并发随机多玩家博弈（CSG）是多智能体系统中一种重要的数学模型，用于描述多个智能体在动态和不确定环境中的交互行为。一个CSG模型可以形式化为一个元组𝐺=(𝐴𝑔,𝑆,𝑠0,(𝐴𝑐𝑡𝑖)𝑖∈𝐴𝑔,𝛿,𝐴𝑝,𝐿)，其中：

Ag：表示一个有限的智能体集。例如，𝐴𝑔=1,2,…,𝑛。

S：表示一个有限的非空状态集，即系统可能存在的所有状态。

s0：表示初始状态，属于状态集 𝑆。

Acti：表示智能体 𝑖的一组有限动作。对于每个状态𝑠∈𝑆，存在一个智能体𝑖可执行的非空动作集𝐴𝑐𝑡𝑖(𝑠)。

δ：表示概率转移函数，其形式为 𝛿:𝑆×𝐴𝑐𝑡𝐴𝑔→𝐷𝑖𝑠𝑡(𝑆)，即状态与动作的联合决定了系统状态的概率分布。

Ap：表示一个有限的原子命题集，这些命题用于描述系统中的各种性质。

L：表示状态标记函数，其形式为 𝐿:𝑆→2𝐴𝑝，将每个状态映射到一组原子命题。

此外，研究团队将CSG模型增强为具有奖励结构的形式𝑟=(𝑟𝑠,𝑟𝑎)，其中：

rs：表示状态奖励函数，定义为 𝑟𝑠:𝑆→𝑅。

ra：表示动作奖励函数，定义为 𝑟𝑎:𝐴𝑐𝑡𝐴𝑔→𝑅。

在系统中，我们考虑累积奖励，即在整个运行过程中直到特定点所累积的收益总和。

参数化随机多智能体系统（PSMAS）的定义

为了捕捉CSG的动态，研究团队引入了参数化随机多智能体系统（PSMAS）。一个PSMAS模型可以形式化为一个元组𝑀=(𝐴𝑔,𝑆,𝑠0,𝑉,∆,𝐴𝑝,𝐿)，其中：

Ag：表示一个有限的智能体集。例如，𝐴𝑔=1,2,…,𝑛。

S：表示一个有限的非空状态集，即系统可能存在的所有状态。

s0：表示初始状态，属于状态集 𝑆。

Act：表示一个有限的非空动作集。

V：表示参数变量的有限集，用于定义概率转移函数中的参数。

∆：表示参数化概率转移函数，其形式为 ∆:𝑆×𝐴𝑐𝑡𝐴𝑔×𝑆→𝐹𝑣，其中𝐹𝑣是具有有理系数的多项式集。

Ap：表示一个有限的原子命题集，这些命题用于描述系统中的各种性质。

L：表示状态标记函数，其形式为 𝐿:𝑆→2𝐴𝑝，将每个状态映射到一组原子命题。

我们引入了可接受评估的概念，并定义了在PSMAS模型中的可接受评估条件。

示例分析

为了更好地理解CSG和PSMAS模型，我们通过一个示例进行分析。

示例1：两个智能体接球

图1。示例：用参数概率转换接球

假设有两个智能体𝐴1和𝐴2，他们的任务是接住一个不断被抛出的球。每个智能体可以选择“接住”或“跳过”动作，可能的状态包括：

s0=dropped，¬caught1∧¬caught2s0 = dropped，¬caught1 ∧ ¬caught2

s1=collision，caught1∧caught2s1 = collision，caught1 ∧ caught2

s2=score1，caught1∧¬caught2s2 = score1，caught1 ∧ ¬caught2

s3=score2，¬caught1∧caught2s3 = score2，¬caught1 ∧ caught2

在这个示例中，智能体𝐴1和𝐴2采取跳过动作的概率分别为𝑥1和𝑥2，选择接住动作的概率分别为1−𝑥1和1−𝑥2。转移标签和概率如下：

𝑝1=𝑥1𝑥2

𝑝2=(1−𝑥1)(1−𝑥2)

𝑝3=𝑥1(1−𝑥2)

𝑝4=(1−𝑥1)𝑥2

动作配置为：

𝛼1=𝑆𝑘𝑖𝑝1𝑆𝑘𝑖𝑝2

𝛼2=𝐶𝑎𝑡𝑐ℎ1𝐶𝑎𝑡𝑐ℎ2

𝛼3=𝐶𝑎𝑡𝑐ℎ1𝑆𝑘𝑖𝑝2

𝛼4=𝑆𝑘𝑖𝑝1𝐶𝑎𝑡𝑐ℎ2

在这个示例里，我们可以看到如何在CSG和PSMAS模型中定义状态、动作、转移概率以及奖励结构。这为我们在概率多智能体系统中进行责任感知的战略推理提供了基础。

责任感知的战略推理

在多智能体系统中进行战略决策不仅需要考虑各个智能体的收益，还需要考虑它们的责任。为了更好地进行责任感知的战略推理，研究团队引入了因果责任的概念，并提出了相应的逻辑框架PATL+R。接下来，我们将详细探讨因果主动责任（CAR）和因果被动责任（CPR）的定义和度量，并介绍PATL+R逻辑，最后通过示例进行分析。

因果主动责任（CAR）的定义和度量

因果主动责任（Causal Active Responsibility, CAR）关注的是智能体的行为直接导致某个结果的责任。具体来说，当某个结果的发生仅仅因为某智能体的动作才会出现，并且无论其他智能体如何行动，这个结果仍会发生时，我们说该智能体对该结果承担因果主动责任。

定义：给定模型 𝑀，如果联合计划𝜋在状态𝑠处的所有历史路径均满足结果𝜔，而在一些与𝑃𝑙𝑎𝑛ℎ𝐴𝑔{𝑖}𝜋(𝑠)一致的历史路径中不满足𝜔，则称智能体𝑖对结果𝜔承担CAR。

度量：给定模型 𝑀，在联合计划𝜋下，智能体𝑖对结果𝜔承担CAR的责任度量定义为遵循𝑃𝑙𝑎𝑛ℎ{𝑖}𝜋(𝑠)并导致𝜔的行为的概率相对于导致𝜔的所有可能行为的比例。

因果被动责任（CPR）的定义和度量

因果被动责任（Causal Passive Responsibility, CPR）关注的是智能体能够通过其行动避免某个结果的责任。具体来说，当某个结果的发生可以通过特定智能体的不同选择来避免时，我们说该智能体对该结果承担因果被动责任。

定义：给定模型 𝑀，如果在联合计划𝜋在状态𝑠处的所有行为均与𝜋一致而𝜔成立，同时在某些与𝑃𝑙𝑎𝑛ℎ𝐴𝑔{𝑖}𝜋(𝑠)一致的行为中𝜔违反时，我们说智能体𝑖对结果𝜔承担CPR。

度量：给定模型 𝑀，在联合计划𝜋下，智能体𝑖对结果𝜔承担CPR的责任度量定义为遵循𝑃𝑙𝑎𝑛ℎ𝐴𝑔{𝑖}𝜋(𝑠)并不导致𝜔的行为的概率相对于导致𝜔的所有可能行为的比例。

逻辑PATL+R的介绍

为了在多智能体系统中引入责任意识，研究团队提出了一种新的逻辑框架——责任感知的概率交替时间时态逻辑（PATL+R）。PATL+R扩展了现有的概率交替时间时态逻辑（PATL），加入了量化奖励和责任的公式。

定义：PATL+R的语法由状态公式和路径公式组成，分别用 𝜙\phi 和𝜓表示。状态公式和路径公式可以通过各种逻辑运算符和量词进行组合，如：

𝜙::=a∣¬φ∣φ∧φ∣⟨A⟩P≤p[ψ]∣⟨A⟩R≤q[⋄≤kϕ]∣⟨A⟩D≤d[CARi,π(ψ)]∣⟨A⟩D≤d[CPRi,π(\ψ)]\phi ::= a | ¬φ | φ ∧ φ | \langle A \rangle P_{\leq p}[\psi] | \langle A \rangle R_{\leq q}[\diamond \leq k \phi] | \langle A \rangle D_{\leq d}[CAR_{i,\pi}(\psi)] | \langle A \rangle D_{\leq d}[CPR_{i,\pi}(\ψ)]

𝜓::=𝜙∣𝜙𝑈≤𝑘𝜑\psi ::= \phi | \phi U_{\leq k} φ

示例分析

通过示例更好地理解上述概念，我们以下面的例子进行分析。

示例：考虑两个智能体接球的情境，如之前的示例所述。假设我们研究的结果是 𝜙=⟨𝐴1,𝐴2⟩(collision∨dropped)\phi = \langle A1, A2 \rangle (\text{collision} \vee \text{dropped})，并且智能体𝐴1和𝐴2分别以概率𝑥1和𝑥2执行跳过动作。

我们可以通过定义的CAR和CPR公式，分析各个智能体在不同策略下对结果的责任度量。例如，如果智能体𝐴1始终选择跳过动作，而智能体𝐴2选择接住动作，则可以计算出每个智能体对碰撞或丢球结果的责任度量。

通过PATL+R逻辑，我们能够形式化地描述智能体的策略和行为对系统结果的影响，并在此基础上进行责任感知的战略推理。

模型检测PATL+R

在概率多智能体系统（MAS）中进行责任感知的战略推理时，模型检测是一个关键步骤。研究团队提出了责任感知的概率交替时间时态逻辑（PATL+R），并提供了相应的模型检测方法。接下来，我们将介绍模型检测算法的基本结构，计算责任度量公式的方法，以及通过算法1和2计算因果主动责任（CAR）和因果被动责任（CPR），并讨论相关定理和示例分析。

模型检测算法的基本结构

PATL+R的模型检测算法基于对状态公式和路径公式的递归计算。基本结构如下：

递归计算满足公式的状态集：算法通过递归计算状态集Sat(φ)，其中𝜑是状态公式。通过计算各个子公式的真值，算法可以确定系统中哪些状态满足公式𝜑。

处理路径公式：对于路径公式𝜓，算法会计算在策略𝜎下，从状态𝑠开始的路径是否满足𝜓。通过分析路径上的各个状态，确定是否满足路径公式。

利用参数模型检测技术：在计算过程中，算法会应用参数模型检测技术，以处理智能体的混合策略。通过计算策略转换概率，评估智能体在不同策略下的行为。

计算责任度量公式的方法

在PATL+R中，责任度量公式的计算是通过分析智能体在联合计划中的行为及其对系统结果的影响来进行的。具体方法如下：

计算CAR公式：对于因果主动责任（CAR）公式γi = CARi,π(ψ)，我们需要计算在遵循智能体𝑖设计的联合计划𝜋时，导致路径公式𝜓的行为的概率，以及满足𝜓的所有可能行为的概率。通过这些概率的比率来计算CAR公式的度量。

计算CPR公式：对于因果被动责任（CPR）公式γi = CPRi,π(ψ)，我们需要计算智能体𝑖改变其动作时违反路径公式𝜓的行为的概率，同时保持其他智能体的动作不变。再通过这些概率的比率来计算CPR公式的度量。

通过算法1和2计算CAR和CPR

研究团队提供了两个算法来计算CAR和CPR的度量：

算法1：用于计算CAR公式的度量。算法1通过分析在指定状态和策略下，各个历史路径满足路径公式𝜓的概率，计算CAR的度量。算法的输入为模型𝑀、状态𝑠、智能体𝑖、联合计划𝜋和路径公式𝜓，输出为具有𝑀参数的Es,σA(D[CARi,π(ψ)])。

算法2：用于计算CPR公式的度量。算法2通过分析智能体𝑖改变其动作时违反路径公式𝜓的历史路径概率，计算CPR的度量。算法的输入为模型𝑀、状态𝑠、智能体𝑖、联合计划𝜋和路径公式𝜓，输出为具有𝑀参数的Es,σA(D[CPRi,π(ψ)])。

相关定理和证明

研究团队证明了对PATL+R公式的模型检测问题可以在PSPACE复杂度内完成。具体定理如下：

定理1：PATL+R公式的模型检测在PSPACE中。证明分为两部分：（𝑖）首先证明没有𝐷运算符的PATL+R公式的模型检测在PSPACE中；（ii）证明带有𝐷运算符的PATL+R公式的模型检测在无记忆策略假设下可以在PSPACE中完成。

定理2：如果效用函数ui在智能体𝑖的混合策略上是单调的，则混合联合计划π = (π1, …, πn)是模型𝑀的混合纳什均衡（NE），当且仅当对于每个智能体𝑖，πi的每个纯策略是对𝜋_Ag\i_的最优响应。

定理3：计算满足PATL+R公式𝜙的NE联合计划可以在PSPACE中完成。通过解决多项式方程组的问题，该问题可以在PSPACE中求解。

示例分析

示例：继续之前的例子，假设我们研究的结果是𝜙 = hA1, A2i (dropped ∨ score2)，并且智能体A1和A2分别以概率x1和x2执行跳过动作。通过算法1和2计算各智能体在不同策略下对结果的责任度量。

计算CAR：对于智能体A1，如果保持其初始状态和动作不变，而其他智能体不能通过不同的动作避免𝜙的发生，则A1对𝜙承担CAR。通过算法1计算满足𝜓的行为的概率和所有可能行为的概率之比，得到CAR度量。

计算CPR：对于智能体A1，如果通过改变其动作可以避免𝜙的发生，则A1对𝜙承担CPR。通过算法2计算违反𝜓的行为的概率和所有可能行为的概率之比，得到CPR度量。

我们可以看到如何在实际应用中使用算法1和2计算CAR和CPR的度量，并在此基础上进行责任感知的战略推理。

计算稳定的联合计划

在多智能体系统中，计算稳定的联合计划是确保系统在动态环境中表现良好的关键步骤。研究团队介绍了如何通过定义和计算效用函数、最优响应集合、参数化模型检测及求解均衡方程，找到最优的联合计划。接下来，我们将详细探讨这些内容，并通过示例分析进行说明。

效用函数的定义和计算

效用函数是衡量智能体在联合计划中的整体表现的关键。它考虑了智能体的奖励/收益和责任度量，为每个智能体提供了一个衡量其策略优劣的标准。

定义：给定模型 M=(Ag,S,s0,V,∆,Ap,L)M = (Ag, S, s0, V, ∆, Ap, L) 和联合计划 π\pi，智能体 i∈Agi ∈ Ag 的收益评估函数定义为 Histπ(s0)Histπ(s0) 的期望收益：

V_i_π(s0) = \sum_{ρ∈Histπ(s0)} ℘_i(ρ)

例子：在例子3中，智能体 A1A1 的联合计划 π1\pi1 的期望收益计算为：

VA1π1(s0)=2⋅(1−x1)x2+1⋅x1(1−x2)V_A1_π1(s0) = 2 \cdot (1 - x1)x2 + 1 \cdot x1(1 - x2)

此外，智能体 i∈Agi ∈ Ag 的责任评估函数定义为 Histπ(s0)Histπ(s0) 的责任度量：

R_i_π(s0) = D_{Ag}[CAR_i,π(𝜙)] + θ \cdot D_{Ag}[CPR_i,π(𝜙)]

其中 θ\theta 是调整因果主动责任（CAR）和因果被动责任（CPR）权重的系数。

效用函数进一步定义为收益评估和责任评估的组合：

u_i_π = λ(V_i_π(s0), R_i_π(s0))

其中 λ\lambda 是一个多项式函数，用于权衡责任和奖励的重要性。简单的实例可能是一个加权线性函数形式：

λ = λ1 \cdot V_i_π(s0) - λ2 \cdot R_i_π(s0)

最优响应集合的计算

通过效用函数，可以计算每个智能体的最优响应集合，即在给定其他智能体策略的情况下，每个智能体可以选择的最优策略。

定义：给定模型 M=(Ag,S,s0,V,∆,Ap,L)M = (Ag, S, s0, V, ∆, Ap, L)，对于每个智能体 ii 和策略配置 πAg\i\pi_{Ag\i}，如果计划 πi\pi_i 是效用函数的最优响应集合，则定义为：

\[ uBR_i(π{Ag\i}) = \{πi | \max{πi} λ(V_i{πi,π{Ag\i}}(s0), R_i{πi,π{Ag\i}}(s0)) \} \]

联合计划 π\pi 被认为是混合纳什均衡（NE），如果它属于所有智能体 i∈Agi ∈ Ag 的最优响应集合：

π∈uBRi(πAg\i)π ∈ uBR_i(π_{Ag\i})

参数化模型检测的应用

在对PATL+R公式进行参数化模型检测以评估最优响应时，我们可以得到表示最优响应策略的参数表达式。这些表达式包含代表不同动作或策略的概率的参数，确定了联合计划中每个智能体的最优策略。

示例：假设研究的结果是 𝜙=⟨A1,A2⟩♦≤2(collision∨dropped)\phi = \langle A1, A2 \rangle ♦≤2(collision ∨ dropped)。假设A1和A2分别以概率 x1x1 和 x2x2 执行跳过动作，我们可以通过参数化模型检测，计算出不同动作的概率和累积奖励。

通过求解均衡方程找到最优计划

找到最优的联合计划，需要求解一组表示最优响应的多项式方程。这些方程通过表达不同动作概率和累积奖励的关系，确定最优的联合策略。

定理和证明

定理1：如果效用函数 uiu_i 对智能体 ii 的混合策略是单调的，则联合计划 π=(π1,…,πn)\pi = (π1, …, πn) 是模型 MM 的混合纳什均衡，当且仅当对于每个智能体 ii，πi\pi_i 的每个纯策略（概率为1）是对 πAg\i\pi_{Ag\i} 的最优响应。

定理2：计算满足PATL+R公式 𝜙\phi 的NE联合计划可以在PSPACE中完成。通过求解多项式方程组，该问题可以在PSPACE中求解。

示例分析

示例：继续之前的例子，假设我们研究的结果是 𝜙=⟨A1,A2⟩(dropped∨score2)\phi = \langle A1, A2 \rangle (dropped ∨ score2)，并且智能体A1和A2分别以概率 x1x1 和 x2x2 执行跳过动作。

计算CAR：对于智能体A1，如果保持其初始状态和动作不变，而其他智能体不能通过不同的动作避免 𝜙\phi 的发生，则A1对 𝜙\phi 承担CAR。

计算CPR：对于智能体A1，如果通过改变其动作可以避免 𝜙\phi 的发生，则A1对 𝜙\phi 承担CPR。

通过这些示例，我们可以看到如何在实际应用中使用参数化模型检测和求解均衡方程计算最优联合计划。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述