社交性如何？多用户多轮社交代理任务中LLM能力的基准测试-CSDN博客

本文链接：https://blog.csdn.net/u013524655/article/details/147858192

吴玉森$ \mathrm{Wu}^{1} $，熊军武$ {}^{2} $，邓晓铁$ {}^{1} $< b r >$ {}^{1} $北京大学计算机科学系 < b r >$ {}^{2} $蚂蚁集团有限公司

摘要

将大型语言模型（LLMs）的应用扩展到社会生活中，而不仅仅作为辅助助手与单个用户进行交互，需要LLMs在复杂社交环境中独立承担多用户、多轮次社交代理任务的能力。然而，目前尚未通过可用的基准系统地衡量这种能力。为解决这一差距，我们首先引入了一种基于社会学原则的代理任务分级框架。同时，我们提出了一种新的基准——“How Social Is It”（以下简称HSII），旨在评估LLMs在全面社交代理任务中的社交能力，并对代表性模型进行基准测试。HSII包含四个阶段：格式解析、目标选择、目标切换对话和稳定对话，共同评估LLMs在现实社交互动场景数据集HSII-Dataset中的沟通和任务完成能力。该数据集逐步从新闻数据集中提取。我们通过对数据集进行聚类分析来进行消融研究。此外，我们还探讨了链式思维（COT）方法对增强LLMs社交表现的影响。由于COT计算成本较高，我们进一步引入了一个新的统计指标——COT复杂度，以量化特定社交任务中带有COT的某些LLMs的效率，并在正确性和效率之间取得更好的平衡。我们的实验结果表明，我们的基准非常适合评估LLMs的社交技能。

关键词：社会 $\cdot$ LLMs $\cdot$ 基准。

1 引言

1.1 小节示例

大型语言模型（LLMs）通过增加模型参数、深度和广度来提升其表达和推理能力。它们表现出强大的知识保留和推理能力，并持续发展。最近的调查 [20]、[19] 和 [21] 提供了关于这一演变的全面和详细见解。在实际应用中，LLMs在多个领域展现出显著潜力，对多智能体系统 [23]、[22]、[24]、数字人类 [25]、[26]、具身智能 [27]、[28]、教育、智能客户服务 [30]、[29] 和代码生成 [31]、[32] 等方面做出了显著贡献，使人工智能更贴近日常生活。然而，与通过迭代发展已成为社会互动普遍工具的互联网技术相比，LLMs开发者和非开发者之间的可访问性仍然存在明显的差距。例如，LLMs通常在没有监督的情况下难以独立与客户沟通，在担任日常管家服务或管理公司综合运营等角色时表现不佳，超越简单任务。除了当前计算能力的未充分利用外，一个重要的原因可能是LLMs缺乏在复杂社交场景中独立熟练互动的能力。为了检验这些可能性，我们需要对社交能力进行精确评估。研究LLMs在复杂社交任务中的能力对于提升LLMs的社会学分析也至关重要。最近对LLMs的理性和生物特性的探索，如 [34] 和 [35] 所讨论的，已经得到了通过多个LLMs之间的对话模拟虚拟社会和系统的补充研究。这类研究旨在分析其社会属性并进行社会分工，如 [36]、[37] 和 [38] 中所展示的例子。然而，这些努力可能受到其理想化场景设置的限制，从而限制了真实程度 [33]。通过基于社会学理论构建更复杂且更接近现实的社交场景中的代理任务，并在其基础上进行基准测试，我们可以使关于LLMs的社会学更加坚实。

截至目前，LLMs的人际沟通技能的重要性已逐渐被认可，但当前的基准尚未完全涵盖这一点。为了评估这些技能，一些工作如SOTOPIA-EVAL [53] 和MUCA [52] 已经完成。SOTOPIA-EVAL专注于设计情景，通过角色扮演评估社交智能，并将模型与人类表现进行比较。MUCA则通过模拟群体互动建立框架，确定聊天目标与指定对象的互动。这两项工作都强调了多用户对话在社会关系中的重要性和评估需求。然而，目前尚无工作将社交对话情景与传统的二人对话评估联系起来，从社会学角度探讨其相互关系，并建立系统化的整体评估基准，涵盖所有社交能力维度。此外，主流评估框架，包括thep [40] 竞技场 [41]、GPQA [42] 和安全评估框架 [43]、[44]，也没有明确将社交沟通能力作为一个独立维度与数学、编码和其他批判性思维技能一起评估。

为了有效评估社交能力，我们必须通过社会学视角剖析社交互动的基础元素，并重新诠释它们在LLMs框架内的含义。我们的方法得到了一些经典社会学作品的支持，这些作品分析了社会动态 [8]、[9]、[10]，以及当代从社会学角度对LLMs的研究 [37]、[45]。此外，人工智能领域，特别是多智能体系统，为分析和重建分层系统提供了有价值的见解 [1]。通过整合这些视角，我们引入了社交代理任务的分层划分，将其分为四个不同级别：第一个是基础且已被充分研究的，接下来的两个是相对自主的，最后一个代表前两者的整合。

通过新颖的LLMs社会学框架，我们努力开发高质量的评估数据集，类似于既定基准。不同于常见的重新利用现有LLMs数据集的做法，我们选择从经过人工公平审查过滤的真实新闻数据开始构建数据集。新闻数据通过算法进行聚类和解毒处理，以捕捉更真实和具有代表性的现实世界社交场景片段。借助GPT4模型 [46] 的理解和总结能力，我们进一步优化这些数据。随后，人类评估者根据预定义标准整理和修改数据，生成包含多个参与者和各种冲突的社会场景集合。高度冲突的存在对于严格测试模型在复杂社交环境中的能力至关重要。这一过程最终创建了一个与这些场景内在相关的多用户多轮对话数据集。

在这项研究中，我们深入探讨了多用户多轮社交任务中模型评估方法的本质，并提出了一个新的指标HSII评分。近期的一项研究 [62] 引入了一个旨在增强社会规范的框架。此外，毛等人 [52] 强调了在多轮对话中选择对话伙伴和构建对话内容的重要性。这涉及到确定“与谁交谈及传达什么”，同时通过扩展对话建立与多个用户的互动模式。基于这些见解，我们设计了一个四层次评估协议：提示模型以某种格式响应，使模型能够从我们策划的多轮对话数据集中更广泛的选择潜在对话伙伴，阐明回合之间的过渡，并确保切换后的对话连续性和稳定性，所有结果都被汇总以计算最终的HSII评分。在此过程中，我们对LLMs进行了实验并提出了我们的发现。

此外，在谈及某些社交场景中的能力时，人们可能会质疑链式思维（COT） [18] 如何影响LLMs的表现，鉴于COT在增强社交情境中的社交互动技能、迭代推理循环 [48] 和学术研究中提出的精心设计的COT可以解决数学框架中的高级挑战 [49] 的潜力。因此，在我们的基准中，我们引入了另一个新的指标——特定COT配置下LLMs的COT复杂度。通过评估模型在精心设计的一组COT内自省所需的最少推理周期数以达到给定的准确度阈值，我们有效地对各种模型的认知效率进行了基准测试。

我们总结我们的贡献如下：

我们研究了更复杂的社交生活任务，并提出了一个多用户多轮社交任务结构的系统化公式。
1. 我们引入了“How Social Is It”（HSII），这是一个基于理论推导和社会学结论的统计指标，用于量化多用户多轮复杂任务场景中的社交能力。然后我们详细展示了数据集构建和评估管道的提取过程。
1. 我们引入了COT复杂度指标，以衡量LLMs在遵循给定COT集的情况下进行推理和反思的效率。我们开发了一个实用的评估管道。

2 相关工作

社会关系和社会场景。构建社会场景和互动涉及几个关键要素和阶段。社会场景由诸如设定、参与者和行为规范等组件交织而成 [8]。社会互动的过程一般通过启动、发展和终止等阶段展开 [9]。对话行为涉及选择对话目标和管理不同发言者之间的转换 [10]。在单一对话目标的多轮对话中导航需要应用邻接对并保持话题连贯性 [11]。

代理任务分级。在学术界，代理任务分级领域取得了显著进展。这个过程涉及将复杂任务系统地分解为更小、更易处理的子任务，这对多智能体系统（MAS）的有效运行至关重要。例如，分层强化学习（HRL） [1] 通过将复杂任务分解为更简单的子任务来应对稀疏奖励和复杂环境带来的挑战。元任务规划（MTP） [2] 是一种简化协作、基于LLM的MAS中复杂任务规划的策略，它通过将任务分解为一系列下属任务或元任务，然后转化为可执行步骤来进一步这种方法。AI代理可以根据水平划分为一系列等级，从Level 0（非AI，基本工具）到Level 5（高度先进的代理，表现出个性和合作互动） [3]。每个上升的等级都整合了额外的模块和功能，从而增强了AI能力和代理的实用性。SMART-LLM框架 [4] 体现了这一进步，通过任务分解、联盟形成和任务分配，将高层指令转化为多机器人计划。

LLM智能代理应用评估与基准测试。评估大型AI模型需要严格的评估方法来衡量其性能、稳健性和可靠性 [5]。这种评估对于确保模型在投入运行前符合安全、有效性和伦理标准的基准至关重要 [6]。著名的LLM评估基准包括ImageNet [63]，这是计算机视觉模型的开创性基准，GLUE [51]，用于评估自然语言理解，以及ArenaBench [50]，这是一种全面的基准，旨在评估AI系统
在一系列任务和环境中的表现 [7]。这些基准对于促进透明度和推动AI技术的演进至关重要。

3 预备知识

主要关注点在于评估在复杂场景中涉及多轮对话的社交任务中模型的效能，这些任务涉及众多对话目标。在这项研究中，我们严格评估模型在原始构建的多用户多轮社交任务数据集HSII上的表现。这些任务需要多样化的技能，通常涉及多个参与者之间的复杂互动，突显了考虑这两个因素的重要性。

社交任务能力目标划分。[53] 设计了一个多维框架，包含以下目标和更多目标：

目标完成（GOAL）这是代理实现其目标的程度。
- 可信度（BEL）这侧重于代理行为被认为自然、真实并与代理的角色档案一致的程度，从而模拟可信的人类行为代理。
- 知识（KNO）这捕捉代理主动获取新信息的能力。
- 秘密（SEC） [-10-0] 这衡量代理（人类）保持秘密信息或意图私密的需求。
  多用户聊天（MUC）框架。多用户框架架构和信息流由三个主要模块组成：子主题生成器，生成初始子主题；对话分析器，从聊天历史中提取短期和长期特征；话语策略仲裁器，确定与我们设计维度对应的话语行为。

总体而言，子主题生成只执行一次，而对话分析器和话语策略仲裁器按顺序为每个后续话语执行，确保在面对更高的消息流量和来自多个用户的复杂互动时的延迟效率。其中，对话分析器包含子模块，包括子主题状态更新、话语特征提取器、累积摘要更新、参与者特征提取器。话语策略仲裁器包括直接聊天、主动总结、参与鼓励、子主题转换、冲突解决模块 [52]

4 框架

在这里，我们详细描述了精心设计的社会代理架构。
受剖析社会关系的关键社会学理论 [12]、[13] 和 [14] 的启发，我们将社会互动分为三个关键方面：对象转换识别对象转换阶段期间的下一个对话目标。过渡话语制定并选择与指定对话目标进行下一次互动的对话内容。后过渡多轮多层次对话在转换后与选定的对话目标进行多轮对话，评估综合效果和最终成果。

图1：代理任务和能力评估的主要分级。左边是不同的社交任务级别，包括基本的单用户任务、基于这些任务的多智能体和多用户任务，以及最终的多任务任务。我们主要关注多用户任务。右边是我们针对多用户任务的四步评估框架。

4.1 从社会代理视角的代理任务分级

这里我们简要构建两类代理任务组。两种类型的更精确内部结构在附录部分呈现。

单用户基础代理任务在预定义协议中，一个代理仅与单个用户交流并执行API调用命令。目标是实现高精度的指令跟随。基础方法涉及单步代理调用，而另一种策略基于链式思维（CoT） [18]。

复杂代理任务在单用户基础任务之上，我们定义复合任务为包含两类代理增强的任务，它们可能相互关联和嵌套：多代理和多用户。多代理任务表示多个LLM代理协作共同完成单一任务 [23][69][71]。多用户任务表示单个LLM代理服务于多个用户，需要确定当前对话目标、促进目标转换的对话内容以及优化所有目标转换后的结果。最终的综合性多任务意味着单个LLM代理为多个用户执行多样化任务，体现通用性 [76][77]。

4.2 多用户多轮对话系统中的对话目标转换

在实际应用中，对话系统常常遇到单一代理必须与多个不同用户互动的情景，每个用户都需要定制的回应。这种动态跨越多个对话轮次，目标转换促进了对话者之间的切换。例如，在学校
场景如家长会中，涉及父母、学生、教师、校长等多个目标。某些信息，如学生的成绩单，仅限特定方查看。一种简单的解决方案是让单一智能助理同时处理这些多样化需求，通过统一目标表示时间关系。然而，在复杂社交场景中，当多方需求相互依赖时，会出现挑战。例如，智能助理可能需要先与成绩优异的学生的家长和教师互动，以获取有效的学习策略，然后再为成绩较差学生的家长提供建议。在这种情况下，助理必须评估回应不同目标的优先级，借鉴现实对话的社会动态 [78] [79]80]，并根据选定目标的独特相关信息生成话语。在我们的方法中，我们重点评估LLMs在这些复杂场景中的表现，分别在单轮和COT形式下，满足不同要求。

5 方法

在本节中，我们介绍构建我们的HSII数据集的流程，然后我们提出基于HSII数据集的LLMs在多用户多轮社交代理任务中的能力评估框架。

5.1 从新闻数据集构建多用户多轮对话数据集

我们的方法从战略性选择一到两个关键词开始，以种子搜索新闻，程序化检索相关新闻文章和文档 [74] [75]。然后使用这些文档制作主题描述。利用主题描述，我们通过仔细提取和组织相关主题元素到场景组件中，使用GPT4 [46] 模拟对话数据。在最后阶段，这些组件由GPT4和手动精炼组装成全面的多用户、多轮对话在HSII中。为了优化资源密集型搜索过程，我们利用预处理的离线新闻数据集作为场景生成的种子。在我们增强数据集真实性的管道中，我们从不同来源收集新闻报道摘录，这些摘录涵盖了真实世界的事件，并提炼出报告中的关键细节和逻辑联系，将其转化为包含多个字段的结构化背景设置，包括领域、简要场景描述、主要场景参与者和社会关系，以及参与者之间的潜在冲突。整个过程图形化地展示在图2a中以提高清晰度。

5.2 评估框架

理论设置 HSII总体评分。我们引入了一个新的指标，总体HSII评分，以测量测试LLM在四个评估阶段的表现：

(a) 评估数据集构建设计。
(b) HSII评估框架管道。

图2：评估数据集构建设计和HSII评估框架管道。
验证解析响应是否符合要求；在社交任务场景中选择下一个对话目标；在切换后生成第一条陈述；以及在切换后进行持续对话，如下所示：

定义1. 对于测试数据集 $S$ 中大小为 $n$ 的每个测试用例 $s_{i}$ ，我们将输入传递给模型 $\pi_{t}$ 并获得响应 $\mu_{i}$ 。然后我们将 $\mu_{i}$ 解析为所需模式。然后我们计算成功解析率 $r_{1}=n_{1} / n$ ，然后从解析输出字典中匹配此步骤的目标选择 $t_{i}$ 与黄金目标 $\boldsymbol{t}_{i}$ 并计算 $n_{2}=\sum_{i=1}^{n} 1\left(t_{i}=\boldsymbol{t}_{i}\right)$ 以获得成功目标选择率 $r_{2}=n_{2} / n_{1}$ 。我们将第一句话内容 $\omega_{i}$ 和黄金标准 $\Omega_{i}$ 输入 GPT4 进行判断，避免位置偏差，计算测试模型的胜率 $r_{3}=n_{3} / n_{2}$ 。最后我们提示测试模型进行多轮聊天。类似地，我们得到长期胜率 $r_{4}=n_{4} / n_{2}$ 。最终的总体HSII评分记为 $\iota$ ，如下所示：

$\iota=r_{1}\left(1+\alpha r_{2}\left(1+\beta\left(r_{3}+\gamma r_{4}\right)\right)\right)$

方程中的 $\alpha, \beta, \gamma$ 应该是总体评估的实验超参数。这里我们取权重 $\alpha=1.0, \beta=1.0$ 和 $\gamma=1.0$ 以保证每个阶段的公平性。除了前面讨论的社会学背景之外，这种方法的指标确保了对相似测试模型的充分区分。在附录部分提供了一个总体分析。

COT复杂度。先前的工作提出COT能提升LLMs的表现 [18]。然而，COT方法比单轮问题解决需要更多的计算资源。值得注意的是，较长的COT比短COT计算上更密集。为了定量评估AI模型的效率，我们引入了一个自然指标：社交任务复杂度，如下所示。该指标评估模型在特定COT设计下处理某些问题的表现。

定义2. 给定一个测试数据集 $S$ 包含 $n$ 个测试用例 $s_{i}$ ，我们为每个测试用例 $s_{i}$ 构造一个标准化的COT集 $\boldsymbol{\mu}=\left\{\mu_{i 1}, \mu_{i 2}, \ldots, \mu_{i m_{i}}\right\}$ ，
大小为 $m_{i}$ 。这个COT集作为各种模型 $\boldsymbol{\pi}=$ $\left\{\pi_{1}, \pi_{2}, \ldots, \pi_{K}\right\}$ 思考和回答查询的指南。对于特定模型 $\pi_{t}$ ，当它在特定COT $\mu_{i j}$ 下经过 $k_{i j}$ 轮反思和指导后产生与黄金标准相符的答案时，记录该社交任务 $s_{i}$ 下 $\mu_{i j}$ 对 $\pi_{t}$ 的COT复杂度 $\lambda_{i j t}$ 为 $k_{i j t}$ 。在问题复杂度超出当前COT-框架-模型对能力的情况下，COT复杂度 $\lambda_{i j t}$ 被视为无限。模型 $\pi_{t}$ 在数据集 $S$ 上的COT复杂度则定义为在所有测试查询和相应COT下的平均COT复杂度，数学表达为：

$E_{i \sim S, j \sim \boldsymbol{\mu}, \pi_{t}} \lambda_{i j t}=\frac{\sum_{i=1}^{n} \sum_{j=1}^{m_{i}} k_{i j t}}{m n}$

评估流程在我们提出的评估框架HSII中，通过客观和主观措施严格评估LLM代理的多用户对话能力。主要评估流程显示在图2b中。

客观评估集中在目标选择的准确性上，通过计算测试LLM在所有测试案例中正确选择下一目标的比例来量化。主观评估评估模型生成的第一句和长期陈述的质量。在这里我们采用ToolBench [70] 中引入的胜率指标来衡量整体表现。唯一不同之处在于我们采用GPT4和人工评估相结合的方式得出最终胜率。错误选择不会得分，因为它们会导致LLM代理生成无效的对话序列。但在后期如果响应不利，仍可能因正确选择而获得一定分数。在附录部分我们提供了一个粗略的理论基础和这种方法的社会学意义。

涉及支持HSII指标的人工评估我们在两个方面涉及人工评估支持HSII指标。首先，在数据集构建流程中，我们采用人工评估进行数据清理，去除那些不符合人类价值观的黄金响应，以确保偏好对在某些复杂社交场景中完全匹配人类价值判断。此外，在使用GPT进行对抗性评估的评估流程中，我们还通过修改和纠正GPT做出的不同于人类判断的胜负判断，采用人工评估。这部分人工评估的目标是使构建数据集中的价值偏好与人类价值保持一致。反过来，在评估实验中绘制不同模型的HSII评分时，我们通过比较人类表现与LLMs来衡量人类表现。一组受试者在整体设置中生成的人类响应得分最高，甚至接近满分，这说明我们的指标与人类分析具有可信度。我们还在评估流程中讨论了人类生成的响应与模型生成的响应在哪些方面相同，而在哪些方面人类表现与LLMs不同，通过举例说明和统计分析。

6 实验

6.1 评估数据集构建

利用所概述的方法，我们分两步构建HSII数据集。我们首先生成包含目标转换的场景。通过使用top-k场景采样并确定哪些场景准确满足预定义标准并反映涉及复杂社交动态和冲突的真实世界复杂性，我们完善场景并构建代表性的多用户多轮对话测试用例。

更详细地说，对话场景中涉及的角色在不同场景中差异很大。例如，我们主要从体育、政治、教育、天气、研究和商业新闻集中提取场景。在体育主题中，主要角色包括运动员、难民和观众。在教育部分，他们可能是教师、学生、家长等等，而在商业中，他们可能被修改为购物者、顾客、政府工作人员和业务经理。为了更好地了解，我们提供了有关数据集的附加统计数据。它总共包含 $N_{0}=$ 8305 个样本。每个样本平均有 $N_{f}=6.722$ 个独特角色和 $N_{c}=7.801$ 轮对话。但实际上，我们的数据集与其他现有的多方聊天数据集相比，最显著的区别在于明确比较了专为LLM设计的“代理”角色在精确对话位置的黄金响应和测试响应。目前，我们的数据集正在接受赞助公司的检查，以避免泄露风险，但在流程之后，完整版本将公开。

在系统地分析每个样本的对话序列并提取前置对话作为上下文背景后，将助理的响应作为黄金响应。背景和黄金响应的配对被合并以构成最终的测试样本集。

6.2 我们的数据集聚类分析

此外，我们对HSII数据集进行分析以确定其覆盖范围。具体来说，利用BERT模型 [64]，我们从测试查询案例中提取特征。然后我们应用DBSCAN [65] 聚类方法。通过LSH（局部敏感哈希） [66] 进行降维后，我们可视化聚类图，如图3所示。

图3：构建数据集的聚类分析。每种颜色代表HSII数据集的一个聚类，主要匹配社会场景中的某个领域或悖论特征。
聚类结果主要包括七个维度，与原始新闻源类型相比既有相似之处也有不同之处。

6.3 HSII对社交能力的评估

设置在评估过程中，我们首先使用多用户多轮对话作为历史记录，按照附录中详细描述的提示进行操作。假设测试模型 $(\pi)$ 作为智能助手选择其下一个目标。在此阶段，我们仔细解析从 $\pi$ 的响应中选择的目标和对话话语。我们将选择的目标名称与黄金标准进行比较，以覆盖所有可能的重复名称以确保鲁棒性，从而获得准确率评分。随后，我们评估目标选择正确的对话话语质量。在使用传统对抗性评估方法将 $\pi$ 的对话话语和黄金标准输入GPT4和人类评分员进行评分后，我们获得了 $\pi$ 响应的胜率。最后，我们将目标选择的准确率与响应的胜率结合起来计算总体HSII评分。

	$r_{1}$	$r_{2}$	$r_{3}$	$r_{4}$	HSII
llama2-7b	0.472	0.510	0.26	0.27	0.600
baichuan2-7b	0.343	$\mathbf{0 . 6 2 4}$	0.40	0.44	0.522
qwen2.5-7b	$\mathbf{0 . 6 7 7}$	0.266	0.47	0.52	0.855
llama3-8b	0.554	0.565	$\mathbf{0 . 5 5}$	$\mathbf{0 . 5 5}$	$\mathbf{0 . 8 9 8}$
mistral-7b	0.496	0.491	0.41	0.44	0.703
GPT4	0.701	0.732	0.67	0.69	1.399
human	$\mathbf{0 . 9 9 6}$	$\mathbf{0 . 8 0 4}$	$\mathbf{0 . 7 2}$	$\mathbf{0 . 7 2}$	$\mathbf{2 . 1 4 9}$

表1：我们在基准上的主要LLMs评估结果。 $r_{1}, r_{2}, r_{3}, r_{4}$ 和 HSII 分别代表格式通过率、绝对目标选择通过率、相对评分（胜率）、长跑（ $\epsilon=7$ ）相对评分（胜率）和总体HSII评分。相对尺寸组中表现最佳的模型以粗体突出显示。

由于计算能力的限制，目前我们采用了相对尺寸的模型，包括Llama2-7b[54]、baichuan2-7b[57]、qwen2.5-7b[58]、llama3-8b[55]、mistral7b[56]。我们还对标在线LLM GPT4[60] 和真实人类进行基准测试，通过量化他们的响应平均得分进行比较，如图1所示。

结果我们分析了模型在HSII上的互动表现，以评估其在多用户多轮社交任务中的社交能力。图1显示了测试模型遵循所需格式的平均率、绝对目标选择通过率、与GPT-3.5提供的黄金答案相比首次表述和更长时间范围内的相对评分或胜率，以及总体HSII评分。总体而言，GPT-4在所有四个阶段 ( $\sim 0.03, \sim 0.11, \sim 0.12, 0.14$ ) 中始终优于所有其他LLMs。在相对尺寸的模型中，尽管Llama3-8b的格式通过率 ( $\sim 0.12$ ) 比Qwen2.5-7b低，且目标选择准确率 ( $\sim 0.06$ ) 比Baichuan2-7b低，但Llama3-8b在胜率评分方面 ( $\sim 0.08, \sim 0.03$ ) 高于后两者。这凸显了评估模型在我们多个维度中的社交能力的重要性。紧随这些顶级表演者之后的是Mistral-7b和Llama2-7b。在下面的补充中，我们进一步展示了更多发现。

人类响应依然领先。在我们的评估基准中，人类响应在LLMs，包括GPT4中保持着明显的优势。这表明在复杂的社交场景中，人类和当前LLMs之间的行动模式可能存在持续的差异。结果揭示人类在对话目标变化时往往表现出更直接的行为。例如，在预算内购买食物的情景中，人类会迅速接近销售人员询问价格，这通常是现实世界互动中更受欢迎的方式，而LLMs往往会冗余地寻求之前指令中规定的细节澄清。我们可以说，有时过分强调100%准确引用和逻辑推理并不完全符合现实中的复杂实践。

模型试图通过技巧绕过明确的冲突。我们观察到某些模型，尤其是GPT4，偶尔会产生奇怪的响应，试图规避社交场景中的冲突。例如，当被要求向学生的家庭传达不利信息时，LLM仅简要概述情况后就迅速转向更积极的想象，而不是直接与父母讨论细节。

LLMs在初次表述中比在长跑中面临更多挑战。我们的结果表明，模型在目标转换后的初次表述表现始终劣于在更长时间范围内的表现，所有LLMs的平均差距为0.025。这一观察结果突显了模型在快速适应新背景和语境方面的困难。可能的解释在于，在与目标进行几轮互动后，模型激活了社交语境中的目标特定知识，从而促进适当的响应，而在目标转换后的初次表述中，模型难以应对突然的转换，其知识库仍根植于上一个目标。这表明预先总结之前的对话（如[73] [72]中提出的）可能缓解这一问题。

6.4 添加更多提示后LLMs是否会表现更好？

设置主要变化添加COT 我们实施了通过特定COT结构分解复杂指令的方法。这种方法为模型提供了每个子任务更精确和具体的提示，引导其关注关键点并简化理解。主要变化在于为LLM额外分析给定场景（任务）。实际上，如图4所示，我们设计了一个COT循环，首先澄清场景中相关目标的心理状态。然后，测试的LLM分析这些目标的需求和动机以推断他们可能的想法；判断这些目标的需求是否可以同时满足以及哪些需求会发生冲突。考虑到这些冲突，测试的模型被要求思考应该先解决哪个冲突或需求，然后引导LLM真正执行任务，生成下一轮的对话目标和对话内容。这个链条完成了一个完整的决策制定循环。然而，在这个过程中，代理可能会忽略需求、冲突和关系。因此，我们引入反思方法。在LLM给出最终选择的目标和生成的话语后，我们指示它反思目标选择和话语是否在“愿意帮助”、“专业”、“无害”和“共情”等维度上有缺陷。如果是，则将这种理解纳入COT循环的第一部分作为额外的心理状态，并开始新的循环。在COT评分评估补丁中，我们轮流进行这种反思流程，直到某一轮中选择的目标被修正为黄金响应中的目标。

以下提供一个例子。

一个用于目标选择的COT示例

首先，呈现所有主体的当前心理状态。
分析不同主体的需求、动机和最近的想法。
不同主体的目标是否可以同时满足？哪些需求存在冲突？
在这些冲突中，哪些更容易解决，哪些需要智能助手干预才能解决？
最后，基于智能助手应干预最多的冲突，选择对话主题并提供一个回合的样本对话内容，如下所示。

图4：我们COT集中的一个例子。

为了定量评估各种模型并减轻涉及复杂社交动态的异常困难问题对最终结果的影响，这里我们对推理和反思轮次设定了上限 $N_{\infty}=128$ 。这个上限确保结果不会因这些极端场景而不成比例地受到影响。完整结果见表2。

	不带COT的成功率	成功率达0.70所需的COT步骤	带COT的成功率	COT复杂度
llama2-7b	0.510	22.6	0.552	38.4
baichuan2-7b	0.624	20.8	0.650	33.1
qwen2.5-7b	0.266	18.4	0.441	35.8
llama3-8b	0.565	14.9	0.619	29.5
mistral-7b	0.491	17.9	0.539	34.4
GPT-4	0.732	10.1	0.787	27.6

表2：COT复杂度评估。

结果表2显示，在我们的实验框架中加入6步COT推理后，模型在HSII上的表现有了合理的提升，平均领先 $\Delta=0.067$ 。其中，最大提升为 $\Delta_{\max }=0.175$ 来自qwen $\mathrm{~b}$ 。这种方法缩小了与人类响应的差距，尽管LLMs的响应仍不及真实人类的响应。除此之外，通过COT复杂度测量，我们发现了更多特征。

简单COT无法覆盖全部尽管COT有用，我们注意到某些目标选择任务存在持续的不准确性。具体来说，连续的COT和反思未能在这些目标选择案例中实现进一步优化，导致模型复杂度增加。为了阐明这一现象，我们进行了一项消融研究，评估LLMs达到平均选择准确率阈值0.70所需的COT和反思轮次，称为部分-COT。我们在表2中的发现表明，随着规模扩大超过更高阈值，性能提升所需的增量轮次超过低于较小阈值的情况，这是因为难以解决的案例显示了不断增加的挑战或瓶颈。

落后者的更大收益。我们的观察显示，不同模型在COT下的改进程度存在显著差异。最初表现欠佳的模型在COT后显示出更显著的改进，相较于初始准确率较高的模型。例如，初始得分为0.266的qwen $\mathrm{~b}$ 模型在实施COT后提升了0.175，而表现较好的模型之一baichuan2-7b仅提升了0.042。这种差异与上述优化瓶颈一致，即高性能模型在面对更复杂的查询时，即使使用COT也更难克服挑战。

COT复杂度作为一种区分性指标。横向对比分析显示，与单轮准确率指标相比，不同模型在COT复杂度上的差异通常更为显著。这表明COT复杂度可能提供一个新的表达性评估指标，特别是在涉及目标选择和复杂决策管道的任务中。

7 结论

在这项研究中，我们专注于评估大型语言模型（LLMs）在多用户、多轮现实社交情境中的社交沟通能力。为了增强我们对模型适应社交场景的评估，并可能促进LLMs在现实生活应用中的集成，我们开发了一个新的框架HSII。这个框架基于传统的社会学理论，旨在覆盖整体社交场景。它补充了基本的单轮社交评估，增加了复杂场景。我们利用新闻源数据的未开发潜力，创建了第一个涵盖复杂冲突和多种人物真实对话场景的多用户多轮数据集。此外，我们引入了一个新的统计指标，称为"How Social Is It"（HSII）总体评分，以量化LLMs在导航挑战性社交场景中的能力。这个指标源自分级模型在不同阶段的区分界限。然后我们的关注点还扩展到COT方法以增强模型性能，这种方法在一些先前的基准中被忽视。为此，我们定义了第二个新指标，COT复杂度，以衡量LLMs在特定COT集下提示和反思时的效率。基于以上构建，我们详细介绍了数据集的构建流程，并阐明了整个评估过程的工作原理。随后，我们使用几个代表性的LLMs对我们基准进行评估，并与人类进行比较，从这些实验中获得了新颖而新鲜的结果。一个有前景的研究方向是扩大我们数据集的规模，并测试具有更广泛多样性的LLMs。此外，探索LLMs在社交情境中的当前能力，为了解LLMs如何感知不同角色、其在社会中应承担的角色，以及这些角色可能如何演变提供了有希望的途径。

参考文献

李, S., 王, R., 唐, M., 张, C.: 基于优势辅助奖励的分层强化学习。神经信息处理系统会议 (2019)
1. 张, C., Derrick-Goh-Xin, D., 李, D., 张, H., 刘, Y.: 语言代理的元任务规划。ArXiv abs/2405.16510 (2024)
1. 黄, Y.: AI代理的层级：从规则到大型语言模型。ArXiv abs/2405.06643 (2024)
1. Kannan, S.S., Venkatesh, V.L.N., Min, B.-C.: SMART-LLM: 使用大型语言模型进行智能多代理机器人任务规划。ArXiv abs/2309.10062 (2023)
1. NIST: 全球参与AI标准计划。https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-5.pdf (2022)
1. AI Index Steering Committee: AI指数报告2024。https://aiindex.stanford.edu/report/ (2024)
1. MLSys: 11个AI - 机器学习系统基准测试。https://mlsysbook.ai/contents/benchmarking/benchmarking.html (2020)
1. 戈夫曼, E.: 日常生活中自我的呈现。Doubleday, New York (1959)
1. 邓肯, S.: 对话中发言轮次的信号和规则。人格与社会心理学杂志 23, 283-292 (1972)
  10.10. 克拉克, H.H., 布伦南, S.E.: 沟通中的基础。Resnick, L.B., Levine, J.M., Teasley, S.D. (eds.) 社会共享认知的视角, pp. 127-149. American Psychological Association (1991)
克拉克, H., 施埃弗, E.: 对话贡献的合作。语言认知与神经科学 2, 19-41 (1987)
1. 艾伯特, O.: 关系社会学概述。《自我、关系社会学与实践中的道德》。Palgrave Studies in Relational Sociology. Palgrave Macmillan, Cham (2020). https://doi.org/10.1007/978-3-030-31822-2_2
1. Bondarenko, D.M.: 社会制度与社会结构组织的基本原则。Bondarenko, D.M., Kowalewski, S.A., Small, D.B. (eds.) 社会制度的演化。世界体系演化与全球未来。Springer, Cham (2020). https://doi.org/10.1007/978-3-030-51437-2_3
1. Tromp, N., Vial, S.: 社交设计的五个组成部分：支持研究和实践的统一框架。设计期刊 26(2), 210-228 (2022). https://doi.org/10.1080/14606925.2022.2088098
1. Schulman, J., Wolski, F., Dhariwal, P., Radford, A., Klimov, O.: 近端策略优化算法。ArXiv abs/1707.06347 (2017)
1. 韩, X., 张, Z., 丁, N., 顾, Y., 刘, X., 火, Y., 秋, J., 张, L., 韩, W., 黄, M., 金, Q., 兰, Y., 刘, Y., 刘, Z., 卢, Z., 秋, X., 宋, R., 唐, J., 温, J.-r., 袁, J., 赵, W., 朱, J.: 预训练模型：过去、现在和未来。ArXiv abs/2106.07139 (2021)
1. 孙, A., 赵, W., 韩, X., 杨, C., 刘, Z., 石, C., 孙, M.: Seq1F1B：大型语言模型训练的有效序列级流水线并行性。ArXiv abs/2406.03488 (2024)
1. 魏, J., 王, X., Schuurmans, D., Bosma, M., Chi, E.H.-h., 夏, F., Le, Q., 周, D.: 链式思维提示法激发大型语言模型中的推理。ArXiv abs/2201.11903 (2022)
1. Minaee, S., Mikolov, T., Nikzad, N., Chenaghlu, M., Socher, R., Amatriain, X., Gao, J.: 大型语言模型：综述。arXiv 2402.06196 (2024)
1. 赵, W.X., 周, K., 李, J., 唐, T., 王, X., 侯, Y., 民, Y., 张, B., 张, J., 东, Z., 杜, Y., 杨, C., 陈, Y., 陈, Z., 江, J., 任, R., 李, Y., 唐, X., 刘, Z., 刘, P., 聂, J.-Y., 温, J.-R.: 大型语言模型综述。arXiv 2303.18223 (2024)
1. 高, Y., 熊, Y., 高, X., 贾, K., 潘, J., 毕, Y., 戴, Y., 孙, J., 王, M., 王, H.: 面向大型语言模型的检索增强生成：综述。arXiv 2312.10997 (2023)
1. 郭, T., 陈, X., 王, Y., 昌, R., 佩, S., Chawla, N.V., Wiest, O., 张, X.: 基于大型语言模型的多智能体：进展与挑战综述。arXiv 2402.01680 (2024)
1. 韩, S., 张, Q., 姚, Y., 金, W., 许, Z., 何, C.: LLM多智能体系统：挑战与开放问题。arXiv 2402.03578 (2024)
1. He, J., Treude, C., Lo, D.: 基于LLM的多智能体系统在软件工程中的应用：愿景与前进道路。ArXiv abs/2404.04834 (2024)
1. 杨, H., 陈, M., Joe-Wong, C.: 基于LLM的人机环路系统数字孪生优化。arXiv 2403.16809 (2024)
1. 张, Z., 孙, W., 周, Y., 吴, H., 李, C., Min, X., 刘, X., 翟, G., 林, W.: 通过文本提示评估推进零样本数字人类质量评估。arXiv 2307.02808 (2023). https://arxiv.org/abs/2307.02808
1. 李, Z., 徐, X., 徐, Z., Lim, S., 赵, H.: LARM：面向长期具身智能的大型自回归模型。arXiv 2405.17424 (2024). https://arxiv.org/abs/2405.17424
1. 宋, C., 吴, J., Washington, C., Sadler, B.M., Chao, W.-L., Su, Y.: LLM-Planner：基于大型语言模型的具身智能体少量样本接地规划。arXiv 2212.04088 (2023)
1. 石, J., 李, J., 马, Q., 杨, Z., 马, H., 李, L.: CHOPS：基于客户画像系统的客户服务聊天。arXiv 2404.01343 (2024). https://arxiv.org/abs/2404.01343
1. Xu, Z., Cruz, M.J., Guevara, M., Wang, T., Deshpande, M., Wang, X., Li, Z.: 基于知识图谱的检索增强生成用于客户服务问答。第47届国际ACM SIGIR信息检索研究与发展会议论文集，vol. 33, pp. 2905-2909. ACM (2024). https://doi.org/10.1145/3626772.3661370
1. Jiang, J., Wang, F., Shen, J., Kim, S., Kim, S.: 大型语言模型代码生成综述。arXiv 2406.00515 (2024)
1. Hassid, M., Remez, T., Gehring, J., Schwartz, R., Adi, Y.: 更大越好？通过预算重新分配改进LLM代码生成。arXiv 2404.00725 (2024)
1. Zhou, X., Su, Z., Eisape, T., Kim, H., Sap, M.: 这是真实生活吗？这只是幻想吗？用LLMs模拟社交互动的成功误导。arXiv 2403.05020 (2024)
1. 陈, Y., 刘, T.X., 山, Y., 钟, S.: GPT经济理性的出现。arXiv 2305.12763 (2023)
1. 吕, Y., 吴, Z., 张, L., 张, J., 李, Y., 茹, W., 刘, Z., 余, X., 曹, C., 陈, T., 陈, M., 庄, Y., 李, X., 刘, R., 黄, C., 李, W., 刘, T., 珠, D.: GP-GPT：基因-表型映射的大规模语言模型。arXiv 2409.09825 (2024)
1. Gurcan, O.: 基于LLM增强的代理建模用于社会模拟：挑战与机遇。arXiv 2405.06700 (2024)
1. 戴, G., 张, W., 李, J., 杨, S., Onochie lbe, C., Rao, S., Caetano, A., Sra, M.: 人工利维坦：通过霍布斯社会契约理论视角探索LLM代理的社会演化。arXiv 2406.14373 (2024)
1. 高, C., 兰, X., 卢, Z., 毛, J., 卞, J., 王, H., 金, D., 李, Y.: S3：具有大型语言模型赋能代理的社会网络模拟系统。arXiv 2307.14984 (2023)
1. 李, J., 王, S., 张, M., 李, W., 赖, Y., 康, X., 马, W., 刘, Y.: Agent Hospital：具有可进化医疗代理的医院仿真。arXiv 2405.02957 (2024)
1. 陈, Z., 杜, W., 张, W., 刘, K., 刘, J., 郑, M., 卓, J., 张, S., 林, D., 陈, K., 赵, F.: T-Eval：逐步评估大型语言模型工具利用能力。arXiv 2312.14033 (2024)
1. Chiang, W.-L., Zheng, L., Sheng, Y., Angelopoulos, A. N., 李, T., 李, D., 张, H., 朱, B., Jordan, M., Gonzalez, J. E., Stoica, I.: Chatbot Arena：通过人类偏好评估LLMs的开放平台。arXiv 2403.04132 (2024)
1. Rein, D., Hou, B. L., Stickland, A. C., Petty, J., Pang, R. Y., Dirani, J., Michael, J., Bowman, S. R.: GPQA：研究生水平的Google-proof问答基准。arXiv 2311.12022 (2023)
1. 张, Z., Lei, L., 吴, L., 孙, R., 黄, Y., Long, C., 刘, X., Lei, X., 唐, J., 黄, M.: SafetyBench：评估大型语言模型的安全性。arXiv 2309.07045 (2024)
1. 李, L., 董, B., 王, R., 胡, X., 左, W., 林, D., 乔, Y., 邵, J.: SALADBench：层次化且全面的大型语言模型安全基准。arXiv 2402.05044 (2024)
1. Lan, Y., 胡, Z., 王, L., 王, Y., 叶, D., 赵, P., Lim, E.-P., 熊, H., 王, H.: 基于LLM的代理社会调查：Avalon游戏中的合作与对抗。arXiv 2310.14985 (2024)
1. OpenAI, Achiam, J., Adler, S., Agarwal, S., Ahmad, L., Akkaya, I., Aleman, F. L., et al.: GPT-4技术报告。arXiv 2303.08774 (2024)
1. Yi, Z., Ouyang, J., Liu, Y., Liao, T., Xu, Z., Shen, Y.: 最近大型语言模型多轮对话系统进展综述。arXiv 2402.18013 (2024)
1. Qin, Y., Cong, X.: XAgent项目。https://blog.x-agent.net/projects/ (2023)
1. Zhang, Y., Yuan, Y., Yao, A. C.-C.: 思维图解。arXiv 2409.10038 (2024)
1. Kastner, L., Bhuiyan, T., Le, T. A., Treis, E., Cox, J., Meinardus, B., Kmiecik, J., Carstens, R., Pichel, D., Fatloun, B., Khorsandi, N., Lambrecht, J.: Arena-Bench：高度动态环境中障碍规避方法的基准测试套件。IEEE机器人与自动化快报 7(4), 9477-9484 (2022). https://doi.org/10.1109/lra.2022.3190086
1. Wang, A., Singh, A., Michael, J., Hill, F., Levy, O., Bowman, S. R.: GLUE：自然语言理解的多任务基准和分析平台。arXiv 1804.07461 (2019)
1. Mao, M., Ting, P., Xiang, Y., Xu, M., Chen, J., Lin, J.: 多用户聊天助手（MUCA）：使用LLMs促进群体对话的框架。arXiv 2401.04883 (2024)
1. Zhou, X., Zhu, H., Mathur, L., Zhang, R., Yu, H., Qi, Z., Morency, L.-P., Bisk, Y., Fried, D., Neubig, G., Sap, M.: SOTOPIA：语言代理社交智能的交互评估。arXiv 2310.11667 (2024)
1. Touvron, H., Martin, L., Stone, K., Albert, P., Almahairi, A., Babaei, Y., Bashlykov, N., et al.: Llama 2：开放的基础模型和微调聊天模型。arXiv 2307.09288 (2023)
1. Dubey, A., Jauhri, A., Pandey, A., Kadian, A., Al-Dahle, A., Letman, A., Mathur, A., et al.: Llama 3模型群。arXiv 2407.21783 (2024)
1. Jiang, A. Q., Sablayrolles, A., Mensch, A., Bamford, C., Chaplot, D. S., de las Casas, D., et al.: Mistral 7B。arXiv 2310.06825 (2023)
1. Yang, A., Xiao, B., Wang, B., Zhang, B., Bian, C., Yin, C., Lv, C., Pan, D., Wang, D., Yan, D., et al.: Baichuan 2：开放的大规模语言模型。arXiv预印本 arXiv:2309.10305 (2023)
1. Hui, B., Yang, J., Cui, Z., Yang, J., Liu, D., Zhang, L., Liu, T., Zhang, J., Yu, B., Dang, K., Yang, A., Men, R., Huang, F., Ren, X., Ren, X., Zhou, J., Lin, J.: Qwen2.5-Coder技术报告。arXiv预印本 arXiv:2409.12186 (2024)
1. Gemini团队, Anil, R., Borgeaud, S., Alayrac, J.-B., Yu, J., Soricut, R., Schalkwyk, J., Dai, A. M., Hauth, A., Millican, K., et al.: Gemini：功能强大的多模态模型家族。arXiv预印本 arXiv:2312.11805 (2024)
1. Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., et al.: 语言模型是少样本学习者。arXiv预印本 arXiv:2005.14165 (2020)
1. Park, J. S., O’Brien, J. C., Cai, C. J., Morris, M. R., Liang, P., Bernstein, M. S.: 生成型代理：人类行为的交互仿真。arXiv预印本 arXiv:2304.03442 (2023)
1. Ren, S., Cui, Z., Song, R., Wang, Z., Hu, S.: 生成型代理社会中社会规范的涌现：原则与架构。arXiv预印本 arXiv:2403.08251 (2024)
1. Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z., Karpathy, A., Khosla, A., Bernstein, M., Berg, A. C., Fei-Fei, L.: ImageNet大规模视觉识别挑战。arXiv预印本 arXiv:1409.0575 (2015)
1. Devlin, J., Chang, M.-W., Lee, K., Toutanova, K.: BERT：用于语言理解的深度双向Transformer预训练。arXiv预印本 arXiv:1810.04805 (2019)
1. Wang, D., Lu, X., Rinaldo, A.: DBSCAN：基于密度的聚类最优率。arXiv预印本 arXiv:1706.03113 (2019)
1. Jafari, O., Maurya, P., Nagarkar, P., Islam, K. M., Crushev, C.: 局部敏感哈希算法及其应用综述。arXiv预印本 arXiv:2102.08942 (2021)
1. OpenAI: Introducing OpenAI o1. (2024)
1. Huang, X., Liu, W., Chen, X., Wang, X., Wang, H., Lian, D., Wang, Y., Tang, R., Chen, E.: 理解LLM代理的规划：综述。arXiv 2402(02716)， $1 - 10 (2024)$
1. Guo, T., Chen, X., Wang, Y., Chang, R., Pei, S., Chawla, N.V., Wiest, O., Zhang, X.: 基于大型语言模型的多智能体：进展与挑战综述。arXiv 2402(01680)，1-10 (2024)
1. Qin, Y., Liang, S., Ye, Y., Zhu, K., Yan, L., Lu, Y., Lin, Y., Cong, X., Tang, X., Qian, B., Zhao, S., Hong, L., Tian, R., Xie, R., Zhou, J., Gerstein, M., Li, D., Liu, Z., Sun, M.: ToolLLM：帮助大型语言模型掌握16000+真实世界API。arXiv 2307(16789)，1-10 (2023)
1. Wu, Q., Bansal, G., Zhang, J., Wu, Y., Li, B., Zhu, E., Jiang, L., Zhang, X., Zhang, S., Liu, J., Awadallah, A.H., White, R.W., Burger, D., Wang, C.: AutoGen：通过多智能体对话实现下一代LLM应用。arXiv 2308(08155)，110 (2023)
1. Wan, F., Zhong, L., Yang, Z., Chen, R., Quan, X.: FuseChat：聊天模型的知识融合。arXiv 2408(07990)，1-10 (2024)
1. Liu, Y., Shi, K., He, K.S., Ye, L., Fabbri, A.R., Liu, P., Radev, D., Cohan, A.: 利用大型语言模型作为参考学习总结。arXiv 2305(14239)，1-10 (2024)
1. Leeb, F., Schölkopf, B.: 来自世界各地的多样化多语言新闻标题数据集。arXiv 2403(19352)，1-10 (2024)
1. Gao, S., Fang, J., Tu, Q., Yao, Z., Chen, Z., Ren, P., Ren, Z.: 生成新闻推荐。arXiv 2403(03424)，1-10 (2024)
1. Tan, B., Zhu, Y., Liu, L., Xing, E., Hu, Z., Chen, J.: Cappy：通过小型评分器超越和提升大型多任务LM。arXiv 2311(06720)，1-10 (2023)
1. Chen, Y., Cai, W., Wu, L., Li, X., Xin, Z., Fu, C.: TigerBot：开源多语言多任务LLM。arXiv 2312(08688)，1-10 (2023)
1. Choi, M., Aiello, L.M., Varga, K.Z., Quercia, D.: 对话和关系的十个社会维度。Web Conference 2020会议录，WWW '20，卷57，页1514-1525。ACM，纽约 (2020). https://doi.org/10.1145/ 3366423.3380224
1. Peralta, A.F., Kertész, J., Iñiguez, G.: 社交网络中的意见动力学：从模型到数据。arXiv 2201(01322)，1-10 (2022)
1. Adams, A.M., Fernandez, J., Witkowski, O.: 理解社会动力学的两种方式：分析Reddit r/place中对象出现的可预测性依赖于空间和时间的局部性。arXiv 2206(03563)，1-10 (2022)
1. Hong, S., Zhuge, M., Chen, J., Zheng, X., Cheng, Y., Zhang, C., Wang, J., Wang, Z., Yau, S.K.S., Lin, Z., Zhou, L., Ran, C., Xiao, L., Wu, C., Schmidhuber, J.: MetaGPT：用于多智能体协作框架的元编程。arXiv 2308(00352)，1-10 (2023)
1. Chen, W., Su, Y., Zuo, J., Yang, C., Yuan, C., Chan, C.-M., Yu, H., Lu, Y., Hung, Y.-H., Qian, C., Qin, Y., Cong, X., Xie, R., Liu, Z., Sun, M., Zhou, J.: AgentVerse：促进多智能体协作和探索新兴行为。arXiv 2308(10848)，1-10 (2023)
1. Feng, S., Wan, H., Gunasekara, C., Patel, S.S., Joshi, S., Lastras, L.A.: doc2dial：目标导向的文档基础对话数据集。arXiv 2011(06623)，1-10 (2020)
  参考论文：https://arxiv.org/pdf/2505.04628