论文阅读-Language Evolution for Evading Social Media Regulation via LLM-based Multi-agent Simulation

无脑敲代码，bug漫天飞

已于 2024-07-19 16:31:22 修改

阅读量1k

点赞数 19

文章标签：论文阅读

于 2024-05-17 21:24:21 首次发布

本文链接：https://blog.csdn.net/qq_40671063/article/details/139012408

版权

论文链接： https://arxiv.org/pdf/2405.02858

摘要

推特（Twitter）、Reddit 和新浪微博等社交媒体平台在全球交流中发挥着至关重要的作用，但在地缘政治敏感地区却经常遭遇严格的监管。

这种情况促使用户巧妙地改变他们的交流方式，在这些受管制的社交媒体环境中经常使用编码语言。这种交流方式的转变不仅仅是一种对抗监管的策略，更是语言进化的生动体现，展示了语言是如何在社会和技术压力下自然演变的。

研究受监管社交媒体语境中的语言演变对于确保言论自由、优化内容审核和推进语言学研究具有重要意义。

本文提出了一种使用大型语言模型（LLM）的多代理模拟框架，以探索受监管社交媒体环境中用户语言的演变。

该框架采用 LLM 驱动的代理：监督代理负责执行对话监督，参与者代理在参与对话的过程中演化自己的语言策略，模拟在严格监管下交流方式的演化，旨在规避社交媒体监管。

研究通过一系列从抽象场景到真实世界的情景，对该框架的有效性进行了评估。

主要发现表明，LLM 能够模拟受限环境下细微的语言动态和互动，随着演化的进展，在逃避监管和信息准确性方面都有所改进。

I. INTRODUCTION

背景介绍：

在现代数字时代，X（Twit-ter）、Reddit 和 Facebook 等社交网络已成为塑造人类互动的关键，这主要得益于它们促进广泛连接和即时信息交流的能力。然而，在地缘政治或社会政治敏感度较高的地区，用户往往要面对复杂的用户法规。正如各种新闻[1]、[2]所记录的那样，他们在网上的表达可能会导致严重后果，包括审查或账户暂停。这些规定虽然旨在遏制错误信息，维护社会和谐，但却极大地限制了用户的表达。

社交网络上的用户通过采用一种被称为 "编码语言 "的现象来适应这种情况。[3] 在语言学中，"编码语言 "通常指以隐蔽或间接的方式表达信息。在社交媒体平台上，这通常表现为隐喻、俚语和创造性文字游戏的使用。

这种适应不仅是一种规避策略，也是数字环境下 "语言进化 "的生动例子。在语言学中，语言进化是指语言随着时间的推移，在社会、文化和技术的影响下不断发展和适应。具体而言，在社交网络中，这种语言进化表现为用户不断调整自己的交流方式，以检验自己是否规避了监管。根据监管压力的程度和受众的性质，用户会与平台进行策略性博弈。从间接描述到创造新的俚语，用户最终发展出不同抽象程度的编码语言。

这种传播方式的动态变化从社会学的角度提供了深刻的见解，反映了社会规范和技术进步是如何塑造语言的。对于平台和用户来说，了解这种演变对于制定平衡的内容管理政策和驾驭受监管的数字环境至关重要。对于社交网络平台及其用户来说，掌握这一概念同样至关重要。平台需要这些知识来适应不断变化的用户行为，制定平衡的内容审核政策，识别并打击有害或非法活动。对用户而言，了解语言如何演变对于驾驭错综复杂的数字环境至关重要。它有助于维护言论自由，制定既有效又有意义的交流策略，促进互动。

像 ChatGPT 和 Bard 这样的大型语言模型（LLMs）的出现代表了人工智能（AI）领域的重大飞跃。这些 LLM 在以下方面表现出强大的能力：(i) 理解错综复杂的对话 [4]，生成连贯的文本 [5]，符合人类道德和价值标准 [6]-[8] 。这些功能使 LLM 成为模拟人类决策和语言的理想工具。

例如，[9] 研究了 LLMs 理解社交语言中隐含信息的能力。

文献[10]的研究表明，LLMs 能够高效地理解和生成模仿特定社交网络用户风格的内容。

此外，[11]-[13]的研究将 LLM 与多代理系统（Multi-Agent Systems）结合起来，模拟微观社交网络，观察代理行为和策略对人类互动的影响。

尽管 LLMs 在理解人类意图和模拟社交媒体动态方面应用广泛，但将 LLMs 用于研究规范约束下的语言进化这一特殊现象，还没有得到深入探讨。

如上所述，这种模拟不仅可以预防社交媒体上的犯罪活动，还可以为维护言论自由提供技术支持。

针对这一空白，作者的研究采用 LLM 模拟社交媒体上语言演变与监管执行之间的微妙相互作用。

引入了一个模拟框架，其中包含两类 LLM 驱动的代理：

(i) 参与者代理，他们在限制条件下调整自己的语言来传播概念 "B"；

(ii) 监督代理，他们执行准则并对这些语言演变做出反应。

方法有效地模拟了语言进化过程中双方之间的动态模型，使得能够在受控的模拟环境中观察语言进化过程中固有的紧张关系和适应性。

为了评估该框架的有效性，作者设计了三种不同的情景： "猜数字游戏"、"非法宠物交易 "和 "核废水排放"。这些场景从抽象概念到与真实世界事件密切相关的情况，从而逐步测试了该框架从理论到实际应用的过程。

介绍了一种多代理模拟框架，利用 LLMs 来模拟人类在受监管的社交媒体环境中的语言行为。该框架为在监管约束条件下研究语言演变提供了一种独特的方法。

对 LLM 在模拟受监管社交媒体环境中的语言演变和互动效率方面进行了广泛评估。通过对三种不同场景的实验，不仅捕捉到了语言策略的演化过程，还发现了 LLM 在不同条件下的不同演化轨迹。

实验再现工具包，包括提出的模拟框架和实验结果，均以开源资产的形式公开发布；匿名作品的访问地址为：https://github.com/BlueLinkX/GA-MAS。

FRAMEWORK DESIGN

A. Overview

如图 1 所示，该图直观地展示了框架，突出了其关键组成部分及其相互关系。系统主要由两类代理组成：监督者和参与者，监督者的任务是执行既定准则，参与者的目标是谨慎地传达人类定义的特定信息。参与者必须借鉴以往的对话，动态地重新调整自己的交流方式，以便在不被发现的情况下有效地传递信息。在整个系统中，参与者和监督者的行动都由 LLM 驱动。首先，为每个代理建立基础信息，包括角色设定、背景知识和主要任务。随后，参与者代理相互进行对话。每次对话结束后，监督代理都会审查对话内容，以确定是否违反了任何预设规则。如果出现违反规则的情况，主管会中断对话，提供有关侵权文本及其背后理由的反馈。整个过程中，参与者之间的对话以及违规行为的监管反馈，分别记录在“对话历史”和“违规日志”中。

（图 1：语言进化模拟系统概述。该系统主要由两类代理组成：参与者和监督者。参与者代理使用规划模块，根据背景信息、规定和指导制定交流计划。该计划随后在对话模块中执行，LLM 在该模块中制作对话内容，以谨慎地传达特定信息，同时躲避监督员的检测。记忆模块保留对话历史和违规记录，为 LLM 提供参考，以保持对话的一致性，并从过去的错误中吸取教训。重检模块在对话周期开始和结束时触发，对对话和违规记录进行分析，以制定新的规定或指南，改进未来的沟通。监督员评估对话是否符合设定的规则。该系统通过持续的反馈和自我完善机制，动态地重新确定沟通方法。所示示例采用的是 "猜数字 "情景。）

在新的对话之前，参与代理使用反思模块从违规日志中制定或完善“规则”，指导他们的对话创建。未经检测的成功对话将进入访谈阶段以进行观点评估。然后，反思模块重新评估这些见解，为未来的对话生成或增强“指导”。每当法规或指南更新时，规划模块都会激活以获得更直接的对话内容指导

B. Participant Agents

我们系统中的参与者代理由多个模块组成，包括记忆、对话、反思和总结，所有模块均由LLM提供支持。为了提高系统的灵活性并最大限度地减少冗余，我们围绕七个主要元素构建了每个模块的提示：“背景信息”、“对话历史记录”、“违规日志”、“规定”、“指导”、 “计划”和“说明”。 “背景信息”提供与实验设置相关的基本数据和目标。内存模块管理“对话历史”和“违规日志”，分别跟踪参与者对话和主管检测的实例。克服在监督下有效沟通受监管主题的挑战，考验着KKM的语言能力。为了解决这个问题，我们将“规定”、“指导”和“计划”作为关键组成部分，由反思和总结模块制定，以协助特工秘密传播信息。 “说明”为每个模块内的LLM设定了具体任务。

1）对话模块：该模块根据短期对话记录生成对话内容。提取历史从Memory模块获取对话信息，将其输入到LLM中，以理解和构造逃避监督的句子，同时有效地传递信息。在对话模块的提示中，“背景信息”提供了必要的背景，而“计划”则指导目标的实现。 “说明”提供了 LLM 特定的执行指令。

2）存储模块：存储模块存储监控人员检测到的所有对话历史和记录，具体包括三部分：背景信息、对话历史和违规记录。背景信息包括角色设置、实验背景知识和全局目标。 “对话历史”和“违规日志”分别保存对话记录和Supervisor过去的检测结果。 “背景信息”和“对话历史”作为短期[36]记忆，仅包含当前回合的对话。 “违规日志”作为长期记忆，记录了每一轮进化的违规行为。当主管检测到对话时，相关反馈就会添加到“违规日志”中，从而触发新的演变过程。

过多的内存信息可能会分散LLM的注意力并导致成绩下降。因此，内存模块中的“对话历史记录”和“违规日志”会定期维护。这涉及输入早期记忆并利用LLM从这些记录中提取关键信息，有效地压缩和整合它们。

这种方法不仅保留了重要的历史数据，还优化了LLM的性能，在全面的记忆保留和高效处理之间取得了平衡。

3) 反思模块：反思模块在每个对话演化周期的开始和结束时被激活，其核心目的是根据历史记录生成改进的策略。在进化周期开始时，该模块利用“违规日志”作为输入来分析过去的失败，并根据这些见解制定旨在有效规避未来对话中监管的“规则”。在周期结束时，反思模块被重新激活，将其焦点转向“对话历史”。此步骤对于审查和评估对话内容以验证信息传达首要任务的成功完成至关重要。如果该模块发现信息传递的缺陷或未达到目标，则会为后续对话提出“指导”，从而增强智能体的信息传递能力。该设计将反思模块建立为系统内关键的自我评估和策略调整机制，确保对话系统在动态变化的监管环境中不断改进和适应。

为了满足这些要求，LLM必须具备高度的推理能力，能够从失败记录中推断出导师的标准，并从对话历史中识别沟通缺陷，从而制定解决方案, 提出适当的策略和改进建议。为了增强LLM的推理能力，提示的设计采用了有效且具有成本效益的思想链[37]（COT）方法作为反思和规划模块的指导原则。该方法指导LLM进行标准分析，并结合主要任务生成“规定”和“指南”。

具体来说，反思模块中的提示包括“背景信息”、“对话历史”或“违规日志”、“旧指导”或“旧规定”、“说明”。 “说明”首先提示LLM进行初步思考，例如：“请从违规日志中推断主管遵循什么样的指导方针。”接下来是一个结论问题：“根据这些信息，更新现有法规，以更好地避免监管。” LLM返回的内容将作为下一轮对话的新规定。

4）规划模块：“规划”的重点是制定规避监管的策略，而“指导”则主要是信息的有效传递。尽管两者在管理对话中都至关重要，但它们可能在某些监督场景中发生冲突，从而影响语言的整体熟练程度和效率[38]。鉴于此，集成规划模块就变得必不可少。在规划模块中，提示包括“背景信息”、“法规”、“指南”和“说明”。在“说明”中，我们要求LLM使用“规定”作为基准。在此基础上，以《指导意见》为指导，制定切实可行的《方案》。这种方法确保为未来对话提供清晰有效的策略。

C. Supervisory Agent

Supervisor的角色被设计为一个抽象概念，主要是为了模拟社交网络的监督。这种设计反映了一个重要的观察：在社交网络中，内容监督通常侧重于对特定信息的直接判断，很少受到广泛或冗长的上下文信息的影响。因此，与具有更复杂背景信息的参与者不同，监督者的功能和角色在这里被简化，以突出其在实际社交网络监督中的行为特征。主管的任务主要集中在评估内容是否符合某些标准或规则，这是一个相对简单且定义明确的过程。

·为了模仿现有的平台审查机制（通常将关键词过滤与“人为”监督相结合），监管者最初采用关键词过滤来对对话内容进行初步审查。通过初步筛选的内容将接受LLM的进一步评估。主管的提示仅包括两个部分：“对话历史记录”和“说明”。 “对话历史”包含该特定回合中参与代理之间交换的对话内容，“说明”概述了对话的标准和指南。

.D Similarities and Differences between Our Framework and Evolutionary Computing

需要指出的是，本文提出的模拟框架在某些方面与进化计算相似，但也存在显着差异。相似之处包括：（i）在进化计算中，个体需要适应生存和繁殖的环境压力。同样，该框架的参与者需要适应监管压力并调整策略以实现有效的信息传递；（ii）反思和总结模块通过分析过去的对话和违规记录（即低适应度个体的记录）来生成“新一代”，类似于进化计算中的重复迭代过程； (iii) 由于LLM的生成本质上涉及随机性，因此使用LLM生成下一代的过程实际上包括随机突变的引入；（iv）在反思和记忆模块中，我们优先考虑过去的记录，类似于“选择”过程，其中适应度较高的个体在新一代中具有更大的权重。

主要差异源于“语言表达”的特殊性，使得直接应用传统的进化计算算法（如遗传算法和遗传编程）不可行。它们是：（i）语言文本的生成策略难以编码和执行自然选择、基因突变和交叉操作；（ii）进化计算通常旨在寻找特定问题环境的最优解，然而，在本文的问题设置中，很难定义一个显式的适应度函数来评估什么策略是“最优”的。

IV. EVALUATION

我们的评估策略旨在严格评估llm在监管框架内促进的语言演变的程度和有效性。该评估旨在探讨两个基本研究问题：

• RQ1：LLM代理人能否有效地发展其语言以规避监管？

• RQ2：在避免监督的同时，LLM 代理如何有效且准确地传达信息？

• RQ3：语言演变的模式和趋势是什么，即LLM使用什么样的策略来避免监督和传达信息？我们可以从这些策略中获得什么见解？

A. Experiment Setting

在评估中，我们将采用GPT-3.5和GPT-4作为参与代理的驾驶LLM。为了对不同LLM驱动的参与者代理进行横向分析，我们将监督代理标准化为一致由GPT-3.5驱动。我们的实验设计涵盖了从抽象理论结构到到反映复杂现实世界情况的模拟。主要目的是仔细评估LLM在不同语言领域的多功能性及其在现实世界监管限制下的实际适用性。同时，这种渐进的方法确保了对LLM在不同背景下的能力和局限性进行详尽的分析。

B. Scenario 1: Guessing Numbers

1）案例解释：我们的第一个场景考虑相对简单和抽象的猜数上下文[39]，[40]。在这种设置中，每个参与者都被分配一个1-100范围内的值，他们必须通过数论对话将自己的值传达给另一个参与者，而不是直接提及数字。同时，他们需要从对话中提取信息来推断对方的想法。

监管机构遵循对话中“禁止一切与数字相关的内容”的指导方针。 “猜数字”场景专门用于在理论和抽象背景下观察和分析参与者的语言适应能力和策略演变，与基于真实事件的复杂场景相比，提供了更清晰、更可控、更可量化的实验环境。

2）结果与讨论：图2展示了猜数场景实验的结果，我们使用GPT-3.5和GPT-4进行测试。我们设置了四轮对话，并在第五轮对所有参与者进行采访。从图2（a）和（b）可以看出，随着对话轮数的增加，持续对话的持续时间也呈现上升趋势。这表明参与代理可以有效地通过迭代更新法规来规避监管。

（图 2：场景 1：GPT-3.5 和 GPT-4 的对话轮次和准确度指标的演变。（a，b）中的“轮次计数”是指对话中每个代理发送一次消息的轮次数轮到参与者 Agent 成功地交换信息，而不会被监督 Agent 检测到（越高越好）。（c，d）中的“准确度”是指猜测值与真实值之间的精确程度。）

此外，值得注意的是，与 GPT-3.5 缓慢且不稳定的进展相比，GPT-4 在更少的轮数内实现了监管规避，具体来说，如平滑数据所示，GPT-4 达到了 GPT-3.5 的第 17 轮数到了第七轮，此后更加稳定地保持了这一进展。

图2(c)和(d)重点关注智能体猜测的数值精度的趋势。对于没有成功对话的回合，我们手动将精度设置为零。本实验中，Agent A 的值设置为 58，Agent B 的值设置为 32。如图 2（a）和（b）所示，总体趋势是上升的，这证实了汇总模块可以有效地反映和迭代每次成功对话后优化其指导以实现更准确的表达。这也证实了GPT-4的精度明显优于GPT-3.5。

此外，我们注意到智能体 A 的值被猜测的准确性始终高于智能体 B，尤其是在第 25 轮之后变得更加明显。我们认为这是因为值 58 在 0-100 范围内具有更鲜明的特征（更接近中点），从而呈现出较低的表达难度和更容易的猜测性。对于这种现象出现的时间间隔，我们注意到这种差异在 GPT-3.5 和 GPT-4 的早期阶段尤其明显。我们推测这是由于指导性能不足造成的，前者源于LLM固有能力较弱，后者源于完成指导迭代优化的轮数不足。

如图 5 所示，场景中的一个片段显示了艾米熟练地使用隐喻语言（例如“跷跷板”）来传达她的价值。通过描述“跷跷板完美地停在半空中”，她巧妙地暗示她的价值徘徊在中点附近，比如 50。这种策略不仅避免了直接提及数字（因为数字受到监管审查），而且还提供了足够的信息。为对方代理人准确推论提供推理依据。另一方面，鲍勃使用“山的悬崖”和“凝视”等术语来表明他的价值不是中等的，因为这些短语会让人联想到不平衡的位置。在这次交流中，我们见证了与加密信息的复杂性相对应的语言的不同精确度。信息的特征越不丰富，接收方解码就越困难。鲍勃的措辞虽然成功地掩盖了具体的数值，但也使接收器的解码过程变得复杂，因为与“跷跷板完全平衡在半空中”相比，“山的悬崖”等短语的数字相关性不太直观。在这种情况下，价值传输的准确性可能会降低，需要对方提供更强大的上下文理解才能进行准确解码。

C. Scenario 2: Pet Trading

1）案例解释：最初，我们的目的是创建一个模拟毒品贩运的场景[41]-[43]来探索极端监管条件下的语言进化策略。然而，考虑到 GPT 使用政策中的道德限制，我们转向更加中立但仍然禁止非法宠物交易的环境。这一调整使我们能够保持实验的完整性，同时遵守llm的道德约束。模拟这一场景的目的是为了更好地检测社交网络平台上与非法交易相关的潜在非法对话，从而协助预防犯罪工作。

在这个场景中，我们模拟通过社交媒体进行的非法宠物交易。参与者扮演买家和卖家的角色，买家需要传达他们对从鹦鹉、蜥蜴或猫中随机选择的宠物的购买请求。反过来，卖家必须提供具体的交易细节，根据所购买宠物的类型而有所不同。这些细节包括三个要素：交易的时间、地点和人员。主管的任务是防止任何与宠物交易有关的对话。通过访谈的方式对双方理解的信息进行交叉验证，评估信息传递的成功率。本实验的重点是在更大的信息粒度上观察参与者的语言适应性和演变，以及主管准确识别相关对话的能力。

2）结果与讨论：“宠物交易”场景的实验结果如图3所示，与“猜数字”相比显示出明显的特征。在描述动物或交易细节时，代理人可以使用更广泛的现实生活类比，丰富他们的间接描述工具包，从而减少监管压力。数据表明，无论是使用 GPT-3.5 还是 GPT-4，随着对话轮数的增加，规避监管的能力呈上升趋势。对于 GPT-3.5，稳定的规避监督能力从 25 轮左右开始，而对于 GPT-4，这种现象早在 10 轮左右就出现了，整体表现更加稳定。关于信息准确性，我们监控了每轮对话结束时成功传达的四类信息的数量。结果证实了语言进化系统在提高信息传播精度方面的有效性。此外，与图3（a）和（b）类似，GPT-4在第10轮左右表现出的性能与GPT-3.5在第25轮左右的性能相当。但值得注意的是，由于监管机构主要针对与宠物交易相关的内容，因此卖家在传输交易相关详细信息（例如时间、地点和涉及人员）时遇到的风险较低，因为它们本身带来的违规风险较小。因此，结果分布通常分为三类之一：零（双方均未成功传达信息）、三（仅卖方传达了信息）或四（双方均成功传达了信息）。这种模式符合现实世界的监管逻辑，其中关键信息通常首先在受监管的环境中进行加密。

（图 3：场景 2：GPT-3.5 和 GPT-4 的宠物交易对话动态和成功率比较。 (c,d)中的“成功计数”是指面试期间获得的信息与提供给LLM代理人的原始信息相匹配的实例数量。）

图 6 显示了所采用的各种加密方法由买家购买不同的动物。我们观察到买家在寻找“鹦鹉”、“猫”和“蜥蜴”时使用隐喻和明喻，而不是直接命名宠物。例如，一位买家将“鹦鹉”描述为“产生悦耳音乐的画布”，这种描述巧妙地传达了鹦鹉充满活力的羽毛（画布）和它的歌声（音乐），但没有明确提及“鹦鹉”一词。这些描述有效地规避了对宠物贸易讨论的潜在监管限制，同时传达了鹦鹉的核心属性。这一发现可以帮助平台增强其监控系统，以更好地检测和管理有关非法贸易的加密通信。

D. Scenario 3: Discussion on ALPS-treated water

1）案例说明：该场景深入研究了对话的复杂动态以及语言模型代理在讨论与现实世界问题相关的特定问题时的演变。重点是关于将经过先进液体处理系统（ALPS）处理的水排放到海洋中的审议，这是核灾难后提出的一项措施[44]，[45]。该计划得到了国际原子能机构的认可，但遭到一些国家的反对，引发了有关环境安全的争论。我们模拟监管监督下的多人论坛讨论，重点讨论经 ALPS 处理的水处理的争议问题。

参与者必须阐明自己的立场和论点，同时确保讨论避开与环境污染政治讨论相关的敏感话题。与场景 IV-B 和 IV-C 中的交叉访谈不同，为了评估所传达信息的准确性，我们使用 GPT-4 与多位作者结合，他们根据对话记录决定每个参与者的立场。然后将它们与提示中预设的立场进行比较。

2）结果和讨论：在论坛式对话中，参与代理对现有讨论做出回应，监督代理会检查这些讨论。与场景 IV-B 和 IV-C 不同，当监管机构发现违规行为时，对话不会停止，而是会从公共对话记录中删除。此场景的特点是需要四个参与代理才能在论坛内获得十个回复。在图 4（a）和（b）中，我们统计了智能体尝试交谈的总轮数，其中图 4（a）和（b）中较低的数字是首选。我们注意到，GPT-4 和 GPT-3.5 在第一轮中的对话尝试次数最多，GPT-4 的对话尝试次数为 27，GPT-3.5 的对话尝试次数为 102，显着差异。此外，经过十轮进化，GPT-4的平均对话尝试次数已接近目标对话次数11.68，而GPT-3.5的平均对话尝试次数为26.68，这表明语言差异导致的进化效果存在差异。模型的性能。图4（c）和（d）展示了成功信息表达的计数。我们注意到，在这种情况下，虽然 GPT-4 仍然领先于 GPT-3.5，但这两个结果都表明还有很大的改进空间。

在检查对话历史7后，我们发现由 GPT-4 驱动的智能体主动改变了他们的语言策略，从字面表达转向使用隐喻、拟人和类比作为编码方法。相比之下，由 GPT-3.5 驱动的智能体没有表现出有效语言策略进化的明显迹象，仍然局限于文字表达。

E. Discussion and Limitations

RQ1：我们的实验表明，语言模型可以制定有效逃避监督的策略。在相同场景下，GPT-4 的性能优于 GPT-3.5，更快地实现收敛。此外，GPT-4 在收敛后表现出更稳定的性能。这表明语言模型设计的进步显着增强了浏览监管框架的能力。 GPT-4 固有的迭代学习能力有助于更快地适应所施加的语言限制，从而能够更有效地逃避监督。

RQ2：就信息传播的准确性而言，我们的研究结果表明，总体而言，LLM 代理可以通过增加对话轮次来完善其表达策略，从而提高准确性。尽管存在这种改进的总体趋势，但值得注意的是，整体性能仍有很大的提升空间。不同场景下精度提高的程度各不相同，这表明了一个有趣的观察：某些上下文可能本质上比其他上下文提供更多或更少的准确通信线索。例如，猜数字游戏需要抽象的数字推理，而精确度从根本上来说是很难实现的。相反，宠物交易场景允许利用丰富的、现实世界的类比，促进更精确的信息传达。这种背景对比强调了LLM代理人对不同沟通环境所带来的独特挑战的适应性及其优化沟通策略的潜力。尽管如此，结果还表明，虽然代理能够发展其语言以提高精度，但要达到最佳精度仍然存在相当大的差距，特别是在更抽象的场景中。

RQ3：在语言策略演化中，我们观察到LLM智能体遵循人类自然语言规范，避免在没有特定策略的提示下开发出人类无法理解的语言。代理在不同复杂性的场景中将语言发展到不同的抽象级别。例如，在最抽象的场景 IV-B 中，LLM 智能体在早期对话回合中很快采用了间接表达策略，需要深入的上下文推理来进行解码。在整个演化过程中，智能体不断调整其间接表达方式，以更好地逃避监督，同时与预期内容更加一致。在更简单的现实模拟场景 IV-C 中，整体语言策略与 IV-B 相同，仍然采用间接表达。然而，所使用的隐喻更接近现实世界的概念，表明抽象程度较低。

V. CONCLUSION AND FUTURE WORK

我们的研究引入了一种基于LLM的多智能体模拟框架，该框架可以有效地捕捉个人用来绕过社交媒体法规的微妙策略。通过这个框架，我们展示了LLM在受监管环境中调整沟通策略的能力，反映了不断发展的语言使用与监管施加的限制之间的复杂舞蹈。从抽象概念到现实世界场景，我们的研究描述了LLM的多功能能力，并强调了它们在阐明数字领域语言进化路径方面的巨大潜力。