基于可解释人工智能的进化群体中毒攻击诊断-CSDN博客

本文链接：https://blog.csdn.net/u013524655/article/details/147718099

Mehrdad Asadi
AI Lab, Vrije Universiteit Brussel 布鲁塞尔，比利时 mehrdad.asadi@vub.be

Roxana Rǎdulescu
智能系统，乌得勒支大学乌得勒支，荷兰 r.t.radulescu@uu.nl

Ann Nowé
AI Lab, Vrije Universiteit Brussel
布鲁塞尔，比利时
ann.nowe@vub.be

摘要

群体系统（例如多无人机网络）在执行协作任务方面表现出色，如监控、监视或灾难援助等关键环境中的任务，其中自主代理以分散方式做出决策，以稳健和高效的方式实现团队目标。不幸的是，野外的团队级协调策略容易受到数据中毒攻击的影响，导致代理之间协调不准确或对抗性行为。为了解决这一挑战，我们提出了一种框架，利用可解释的人工智能方法研究此类数据中毒攻击的影响。我们使用进化智能建模代理之间的交互，其中最优联盟战略性地出现以执行协调任务。然后，通过严格的评估，系统性地使用数据操控攻击对群体模型进行中毒处理。我们展示了可解释人工智能方法的应用，以量化中毒对团队策略的影响，并提取用于诊断的特征表征。我们的研究表明，当模型被超过10%的数据中毒时，可以识别出导致合作效率低下的非最优策略。

CCS 概念

计算方法学 → 机器学习；人工智能；·以人为中心的计算 → 人机交互 (HCI)。

关键词

群体系统，可解释人工智能，模型诊断

ACM 引用格式：

Mehrdad Asadi, Roxana Rǎdulescu, 和 Ann Nowé. 2025. 基于可解释人工智能的进化群体中毒攻击诊断。遗传与进化计算会议 (GECCO '25 Companion)，7月14日至18日，2025年，马拉加，西班牙。ACM，纽约，美国，4页。https://doi.org/10.1145/3712255.3726576

1 引言

为了实现一组代理之间的高效任务执行，考虑协调决策而不是个体决策是至关重要的。

为应对这一需求，群体智能作为一种优化自组织代理决策的方法应运而生，通过互动实现这一目标。然而，这种框架容易受到数据中毒攻击的影响，导致次优协调，可能过度消耗代理资源，例如，在安全关键环境中诱导群体错误行为以造成有针对性的损害[16]。这种脆弱性引入了重大挑战，特别是随着自主系统的部署日益广泛。随着欧盟人工智能法案[3]的监管加强，确保这些在野外运行的系统可靠且合规的行为变得重要，因此开发分析AI驱动群体在存在对手情况下的行为框架和方法高度需求。

本文中，我们提出了PADEX（基于可解释人工智能的进化群体中毒攻击诊断），一个通用的群体智能诊断框架，源于代理的进化行为。我们的框架结合了机器学习生成的黑盒进化稳定行为的替代模型，与XAI方法一起帮助识别由特征扰动攻击引起的异常模型行为。为了实现这样的框架，我们在多无人机协同采样任务上提供了PADEX的具体实例化，并展示了现有的XAI方法如何在受到数据中毒攻击后能够表征次优群体行为。这项工作为潜在攻击的严重性表征和早期诊断奠定了基础。

2 PADEX 诊断框架

在野外部署基于群体的系统是一项具有挑战性的任务，需要仔细研究它们的相互作用，以确保效率和鲁棒性[1]。此外，此类基础设施在部署后仍易受数据中毒攻击影响[16]。为此，我们提出了PADEX，一种能够通过生成的行为轨迹分析和诊断系统状态的诊断框架。图1展示了PADEX的高层次概览。该通用框架可以分为三个主要模块。以下我们将详细描述每个模块及其相互作用。

A - 群体系统。这个黑盒模块允许灵活实现解决协调问题的群体代理。它支持各种基于群体的算法或其他任何生物启发式方法，实现无缝集成。通过利用局部交互产生的涌现动力学，它建立了稳健的集体行为和稳定的解决方案空间以供后续分析。

允许为个人或课堂使用制作本作品的全部或部分内容的数字或硬拷贝，前提是复制件不得为盈利或商业优势而制作或分发，并且复制件需带有此通知和第一页上的完整引用。第三方组件的版权必须得到尊重。对于所有其他用途，请联系版权所有者/作者。
    GECCO '25 Companion, 马拉加，西班牙
        (c) 2025 版权归版权所有者/作者所有。
ACM ISBN 979-8-4007-1464-1/2025/07
    https://doi.org/10.1145/3712255.3726576
    ![img-0.jpeg](https://raw.gitcode.com/easy_papers/papers/files/main/2505.01181/img-0.jpeg)

图1：PADEX框架的模块和管道概览

B - 替代模型。在部署之前，PADEX假设来自前一组件的进化行为，并在模块B中近似生成一个良性的基于ML的替代模型。一旦建立稳定的指纹模型，即可进行部署。在第3.2节中，我们展示了这些替代模型如何结合基于XAI的方法，通过模拟特征扰动（如数据中毒攻击）检测被操纵或增强的虚假数据。

C - 基于XAI的诊断。该模块旨在比较良性群体模型与潜在中毒部署模型的行为。关键见解是通过查看训练模型时使用的特征，可以识别异常的涌现行为。

在接下来的部分中，我们展示了一个我们框架的具体和完整的实例化。然后我们使用这个实例化进行严格的实证评估和验证。

3 PADEX 实例化

我们的框架实例化的概述如图2所示，包括三个步骤。以下我们简要描述框架的每一步。我们考虑合作采样的任务[15]，这是一个在监测或监视场景中广泛遇到的问题。第3.1节描述了问题建模和采用的解决方案，即基于联盟形成的进化方法。第3.2节和第3.3节则描述了良性替代模型的训练、攻击模拟，以及我们如何提议使用基于XAI的方法进行分析和诊断（即SHAP [8]）。

3.1 群体的进化动态

我们考虑一个使用进化智能形成最佳联盟以进行合作采样的群体。目标是通过优化联盟组成来有效地测量兴趣点（PoI）。代理选择合作策略，但该游戏是非单调的，因为增加更多代理可能会引入开销而不增加利润。收益取决于每个成员的贡献，我们使用战略型游戏对联盟形成问题进行建模。

我们采用进化博弈方法作为经典纳什均衡分析的替代方案。代理基于人口博弈[13]和行为经济学[4]中的惯性和短视属性行动。最初，玩家随机行动并通过修订协议（如复制动态）根据利润调整策略。为鼓励多样性，我们惩罚具有高余弦相似度的联盟并奖励具有不同角度距离的成员的联盟。

3.2 假设和威胁建模

正如上述内容所述，我们遵循一种数据驱动的方法，通过应用ML预测进化策略来高效预测代理在各种进化情景中的战略决策。因此，在这种设置下，我们考虑一种数据中毒场景，其中攻击者可以注入虚假位置数据（例如特征扰动）以污染整体模型[18]。这类攻击在这种设置下很容易实施，而无需物理访问代理[2]。我们的ML模型只需要每个代理的位置坐标来估计合作策略。因此，我们假设GPS坐标可以通过安装在代理上的假GPS应用程序进行伪造以利用漏洞[10]。我们假设所有群体成员都能看到PoI，尽管每个成员有不同的视角。采样质量取决于距离和其他参与任务的群体成员可能造成的盲点。如图2(a)所示，一群自主代理（例如无人机）合作以有效捕获来自PoI的有价值数据。目标是以最低的群体成员开销对PoI进行协调采样。

PADEX假设存在一个良性的群体模型。一旦这样的模型存在，我们将一组恶意数据注入训练过程（图2(b)）。这可以通过注入假GPS坐标和次优联盟轻松实现。在我们的实验中，数据中毒应用于不同级别以评估攻击对群体模型的影响。

3.3 特征重要性分析

图2©展示了总体XAI分析。关键见解是通过查看推理过程中的重要特征，可以追溯到良性模型并识别异常行为，其中联盟的形成表明最佳协调已被改变。

为了表征和量化群体模型的中毒，我们依赖一种著名的可解释性方法来分析生成的黑盒模型。我们选择了SHAP [8]作为统一的框架来解释AI预测。SHAP为特定预测中的每个特征分配一个重要值，并利用Shapley值，这是合作博弈理论中广泛使用的一种方法。通过查看SHAP偏差并建立可量化的差异，可以评估决策制定中的异常现象。

4 实验设置

我们使用进化博弈方法解决了所提出的博弈，并通过为每个初始随机配置解决博弈生成了10,000个解的数据集，使我们能够构建一个ML模型（图2(b））以早期预测策略。对于这个问题实例，我们使用随机森林预测最佳联盟，准确率达到90%。一旦我们的良性群体模型在有效解的空间内训练完成，我们捕捉特征交互的指纹。然后我们通过注入中毒数据来扩充训练数据，其中我们合成生成具有改变特征的数据。然后我们逐步增加数据的中毒水平。我们诱导10%至40%（每次增加5%）以逐渐增加攻击严重性。由于中毒数据已经接管推理过程，我们没有考虑更高比例的中毒数据。

图2：PADEX实例化；a）进化博弈建模 b）特征扰动和模型训练（随机森林）；和 c）基于SHAP的诊断
最后，我们应用SHAP方法通过用于推理过程中的SHAP值量化和表征偏差，以比较中毒对我们模型影响的逐渐增加。

5 结果

我们的主要发现包括：（1）中毒攻击会影响最佳策略预测的稳定解空间，并导致模型形成破坏自我强制规则的不稳定策略；（2）除了降低群体模型的准确性外，我们的结果表明，当中毒达到超过10%的水平时，群体成员向不稳定状态的偏离开始更加明显；（3）SHAP值可以量化由中毒引起的可表征偏差，表明可以通过比较干净版本和中毒版本的模型来检测中毒攻击。

除了导致性能下降（测试中毒攻击后的AI模型准确率从91%降至63%）之外，我们可以观察到测试数据的策略预测发生了变化，这可能导致次优策略和协调。实际上，中毒攻击导致群体形成了成本更高的低效联盟。这种解分布的变化是参与者偏离形成非优化联盟的证据。因此，除了为每个个体代理提供次优协调外，我们的结果还表明，形成联盟的成本也增加了。

5.1 基于XAI的特征量化

接下来，我们使用SHAP方法分析在训练阶段注入中毒数据后模型的行为。我们依赖于生成的游戏解决方案痕迹 ${ }^{1}$ ，因为它包含许多记录，使我们能够全面分析XAI方法。

使用SHAP量化特征重要性，我们可以观察到直到10%的中毒攻击对模型输出的代理贡献值产生了负面影响。然而，随着中毒严重程度的增加，

图3：测试数据的预测策略分布

图4：特征对100个样本输出的影响。特征是代理在网格状环境中的位置 $(\mathbf{x}, \mathbf{y})$ 。蓝色带表示正贡献，粉色表示对预测的负影响。
不同代理的贡献水平显著变化，导致代理对游戏结果的贡献发生变化，无法满足预期观察；因此，模型性能

${ }^{1}$ https://github.com/mehrdadasadiut/GameSolutions-Data
在40%中毒水平时下降至63%。这一结果与特征平均效应分析一致。如图4所示，我们绘制了不同虚假数据注入水平下100个样本的特征平均效应。Mann-Whitney-U检验显示每种攻击严重程度下特征平均效应有显著差异（清洁 vs. 20% 中毒 $U =$ 1373.00, p-value $= 0.2574 > 0.05$ - 清洁 vs. 30% 中毒 $U = 968.50$ , p-value $= 0.0005 < 0.05$ - 清洁 vs. 40% 中毒 $U = 982.50$ , p-value $=$ $0.0007 < 0.05$ ）。结果表明，当将结果与完美模型进行比较时，XAI是一种建议的指标，适用于样本高效的中毒攻击检测（例如，100个测试样本）。

6 相关工作

进化计算（EC）广泛用于解决复杂的多代理协调问题，但由于其计算强度面临挑战。为提高效率，研究人员整合了ML技术以近似适应度评估，从而减少计算成本[7]。回归、神经网络和高斯过程等替代模型有助于绕过昂贵的计算。例如，Tzruia等人[14]提出了一种通过ML进行适应度近似的方法，证明了ML方法可以有效取代遗传算法中的直接适应度评估。

与此同时，理解ML模型的内部逻辑对于增强用户对系统和应用的信任至关重要[5]。已开发了多种XAI方法以揭示模型的内部逻辑，例如SHAP[8]、LIME[12]和遮挡敏感性[17]等。最近，Ottun等人[11]还通过XAI方法评估了模型的鲁棒性，利用特征重要性揭示模型弱点和在对抗图像条件下的决策不一致性，在图像分类任务中。在自主无人机的背景下，XAI方法已被用于分析单个自主无人机中运行的AI模型[9]。虽然在将ML与进化计算相结合方面取得了显著进展，但一个新兴的研究挑战是研究数据操作对学习和近似模型的影响[6]。受[11]的启发，我们在此背景下推广并重新定位这种方法，针对进化群体系统和攻击诊断。我们的研究表明，PADEX诊断框架可用于表征由特征扰动攻击引发的群体涌现的不当行为。这些见解表明，XAI不仅有助于诊断模型漏洞，还为开发更具弹性的学习框架提供了基础。

7 结论与未来工作

在这项工作中，我们介绍了PADEX，一个设计用于检测群体智能模型是否受到数据中毒攻击影响的框架。通过采用进化博弈理论方法，我们建模了一个联盟形成的稳定策略空间。通过使用SHAP值，我们分析了联盟预测中的偏差，从而能够检测受损模型。我们的大量实验表明，我们的框架能有效识别关键模型特征的可量化变化，表明群体模型何时因攻击而中断。

在未来的工作中，我们计划扩展这种方法以分析其他攻击向量，例如联邦学习环境中的标签翻转。我们的贡献为不仅评估攻击严重性，还能识别具体攻击类型的方法奠定了基础，从而实现对其影响的早期缓解。

致谢

Mehrdad Asadi和Ann Nowé得到了佛兰德斯AI研究计划和PEER项目（欧盟地平线资助101120406）的支持。Roxana Rădulescu部分得到了FWO（资助1286223N）的支持。感谢Huber Flores和Farooq Dar在主题上的技术讨论。

参考文献

[1] Yunes Akpahi 和 Murat Makaraci. 2025. 探索机器人群体协调与控制的最新进展和新兴趋势：综述。机械工程师学会会刊，C部分：机械工程科学杂志 239, 1 (2025), 180-204.
[2] Wenxin Chen, Zhenhai Duan 和 Yingfei Dong. 2017. 基于EKF的导航控制中的虚假数据注入。2017国际无人系统大会 (ICUAS). IEEE, 1608-1617.
[3] 欧盟委员会. 2021. 欧洲议会和理事会关于人工智能的法规提案，确立人工智能的协调规则（人工智能法）并修订某些欧盟立法行为。(2021). https://artificialintelligenceact.eu/the-act/
[4] David Gal. 2006. 心理惰性法则与损失厌恶错觉。判断与决策制定 1, 1 (2006), 23-32.
[5] Ella Glikson 和 Anita Williams Woolley. 2020. 人类对人工智能的信任：实证研究回顾。管理学院年鉴 14, 2 (2020), 627-660.
[6] Ian J Goodfellow, Jonathon Shlees 和 Christian Szegedy. 2014. 解释和利用对抗性示例。arXiv预印本 arXiv:1412.6572 (2014).
[7] Yaochu Jin. 2011. 辅助进化计算的代理：近期进展与未来挑战。群集与进化计算 1, 2 (2011), 61-70.
[8] Scott M Lundberg 和 Su-In Lee. 2017. 统一解释模型预测的方法。神经信息处理系统进展 30 (2017).
[9] Harsh Hankodiya, Mohammad S Obaidat, Rajesh Gupta 和 Sudeep Tanwar. 2021. XAI-AV：自动驾驶车辆信任管理的可解释人工智能。2021国际通信、计算、网络安全与信息学会议 (CCCI). IEEE, 1-5.
[10] Julwain Noh, Yujin Kwon, Yunmok Son, Hocheol Shin, Dobyun Kim, Jaeyeong Choi 和 Yongdae Kim. 2019. Tractor Beam：通过自适应GPS欺骗安全劫持消费级无人机。ACM隐私与安全事务 (TOPS) 22, 2 (2019), 1-26.
[11] Abdul-Rasheed Ottun, Zhigang Yin, Mohaan Liyanage, Nicholl Boerger, Mehrdad Asadi, Pan Hui, Sasu Tarkoma, Nikolay Tcheltchev, Petteri Nurmi 和 Huber Flores. [n. d.]。迈向未来智慧城市中的可信和负责任自主无人机。Authorea预印本 ([n. d.]).
[12] Marco Tulio Ribeiro, Santeer Singh 和 Carlos Guestrin. 2016. "我为什么要相信你？"解释任何分类器的预测。第22届ACM SIGKDD知识发现与数据挖掘国际会议论文集. $1135 - 1144$ .
[13] William H Sandholm. 2010. 种群博弈与进化动力学。MIT出版社.
[14] Itai Tzruia, Tomer Halperin, Moshe Sipper 和 Achiya Elyasaf. 2023. 通过机器学习进行适应度近似。arXiv预印本 arXiv:2309.05518 (2023).
[15] Binglu Wang, Lei Zhang, Zhaozheng Wang, Yongqiang Zhao 和 Tianfei Zhou. 2023. CORE：多代理感知的合作重建。IEEE/CVF国际计算机视觉会议论文集. 8710-8720.
[16] Qi Wang, Tingting Li, Yongjun Xu, Fei Wang, Boyu Diao, Lei Zheng 和 Jincai Huang. 2023. 如何防止智能无人群体的恶意使用？创新 4, 2 (2023).
[17] Matthew D Zeiler 和 Rob Fergus. 2014. 可视化和理解卷积网络。计算机视觉-ECCV 2014：第13届欧洲会议，瑞士苏黎世，2014年9月6-12日，会议录，第113部分。Springer, 818-833.
[18] Hongnia Zhang 和 Mohan Li. 2022. 在众包系统中针对真相发现的多轮数据中毒攻击与防御。2022年第23届IEEE移动数据管理国际会议 (MDM). IEEE, 109-118.