论文阅读-Unveiling the Truth and Facilitating Change: Towards Agent-based Large-scale Social Movement Si

摘要

        社交媒体已成为社会运动的基石,在推动社会变革方面发挥着举足轻重的作用。模拟公众的反应并预测潜在影响变得越来越重要。然而,现有的模拟此类现象的方法在捕捉社会运动参与者的行为方面面临着效率和有效性方面的挑战。在本文中,我们介绍了一种用于模拟社交媒体用户的混合框架HiSim,其中用户被分为两种类型。核心用户由大型语言模型驱动,而众多普通用户则由基于代理的演绎模型建模。我们进一步构建了一个类似Twitter的环境,以复制他们在触发事件后的反应动态。随后,我们开发了一个多方面的基准SoMoSiMu-Bench进行评估,并在真实数据集上进行了全面的实验。实验结果表明了我们的方法的有效性和灵活性。

图1:触发事件发生后用户互动和态度变化的示意图。用户可以根据自己的特点采取发布和转发等行动,他们生成的内容将存储在Twitter时间轴中,并发送给他们的关联用户。一旦感知到他人的观点,用户的态度就会改变。

1、介绍

        在过去的几十年里,社交媒体见证了诸多社会运动,例如阿拉伯之春(Rane和Salem,2012)和#Metoo(Brünker等人,2020)。Twitter是一个重要的论坛,为要求变革的团体提供了强有力的发声渠道。如图1所示,Twitter上突发新闻的传播引发了观点的扩散,影响了集体情绪并塑造了社会议程,并常常导致现实世界的行动(Roy和Goldwasser,2023)。尽管大多数社会运动据报是和平的,但参与规模之大有时会升级为暴力和破坏,造成潜在后果。因此,采取积极措施预测此类事件的影响势在必行。

        以往对在线社会运动的研究主要集中在内容和用户的回顾性分析上(Giorgi等人,2022;Roy和Goldwasser,2023),而不是利用模拟进行预测。基于代理的模型(ABMs)在社会科学领域被广泛用于模拟(Schelling,2006;Jackson等人,2017),其中每个代理都代表一个个体,代理之间的互动会产生不同的社会现象。通常,ABMs是微观层面的数学模型,通过模拟大规模的互动来定义个体如何相互影响,从而形成集体的社会模式(Törnberg等人,2023)。

        最近,大型语言模型(LLMs)在人类级别的智能方面表现出了令人印象深刻的能力(Wang et al.,2023b;Xi et al.,2023)。基于LLM的用户模拟已经在推荐(Wang et al., 2023c; Zhang et al., 2023)和协同工作(Chen et al., 2023; Qianet al., 2023b)等领域成功进行了实验。然而,使用LLM进行大规模在线社交运动模拟的探索仍然有限,并面临以下挑战:(1)如何准确模拟社交媒体用户并复制他们在社区中的行为? (2)鉴于使用数千个LLM的不切实际性,如何有效地模拟大量用户? (3)如何全面评估模拟的有效性?

        为了应对这些挑战,本文引入了HiSim:一种用于社交媒体用户模拟的新型混合框架。考虑到社交媒体用户参与中固有的帕累托分布2,我们将用户分为两类:核心用户,包括活跃且有影响力的人物,如意见领袖,以及普通用户。核心用户由LLM驱动,能够模拟其复杂的行为,而普通用户则由ABM管理,为大规模用户模拟提供了一种实用的方法。

        基于由两种用户组成的混合机制,我们建立了一个在线社交媒体环境,用于在线社会运动模拟和评估。在这个环境中,信息以类似Twitter的时间线形式组织,离线新闻也可以传播。通过态度评分可以观察用户的互动和由此产生的集体态度。为了系统地评估模拟效果,我们提出了一个全新的基准SoMoSiMu-Bench,其中包括三个从现实世界收集的数据集(Metoo、RoeOverturned和BlackLivesMatter)以及微观和宏观层面的评估策略,分别关注单个用户的调整和系统结果。SoMoSiMu-Bench的评估结果证明了我们的模拟框架的有效性。

我们的贡献可以总结如下:

  1. 我们引入了一种混合模拟框架,其中分别对两种类型的用户进行建模,以解决与模拟大量参与者相关的成本和效率挑战。
  2. 我们开发了一种专为在线社交运动量身定制的模拟器,具有类似Twitter的环境和用户意见动态建模。
  3. 我们提供了首个用于社会运动模拟评估的基准SoMoSiMuBench,包括由三个真实运动和相应评估方法组成的数据集。实验结果和分析证明了我们方法的有效性。

2、公众意见动态模拟的正式化

        模拟人们态度、信仰和意见的变化至关重要,因为意见变化可能会导致社会现象,如两极分化和极端化。在本节中,我们将介绍基于代理的模型的初步研究以及目标任务的制定。

2.1 前期准备

2.1.1 基于代理的意见动态模型

        基于代理的模型(ABMs)是一种微观数学模型,用于定义个体代理如何根据他人的意见调整对特定主题的态度(Lorenz et al.,2021;Chuang and Rogers,2023)。通过模拟个体行为之间的相互作用,ABM能够识别出仅凭社会系统内个体的特征无法预测的、群体层面的机制(Törnberg等人,2023)。通常情况下,在用于意见动态的ABM中,每个代理都会保留一个连续的态度分数来表示其意见,分数的符号代表态度方向,即正面或负面,分数的大小描述态度强度。ABM定义了在他人影响下这个分数是如何变化的。尽管不同的ABM中具体公式有所不同,但大多数模型都可以分解为ABM中存在的组成部分,并用统一的公式表示(Chuang和Rogers,2023),其中三个关键函数可以对其进行定义,即态度更新函数fupdate、选择函数fselection和信息函数fmessage。

更新函数 : 更新函数通常定义态度的变化。形式上,态度更新为:

 其中,∆ai,t 是智能体 i 从时间步 t 到 t + 1 的态度变化 ,ai,t和ai,t+1是智能体i在交互前后的姿态,Mi,t={mj,t|j∈Ji,t}是智能体i从Ji,t收到的消息,即那些在时间步长t与智能体i交互的人。

图2:拟议的框架架构。底部展示了核心用户的架构和普通用户的机制。顶部展示了模拟过程。在每一轮中,核心用户代理根据上下文信息生成文本响应,并在后处理后将其态度传达给普通用户,而普通用户则直接使用态度分数进行交流。标题

选择功能 :选择功能决定了将对代理i产生社会影响的代理集Ji,t。它可能由内部因素驱动,例如与更相似的人互动的内部意图,也可能由外部因素驱动,例如平台的推荐算法。

消息功能 :消息功能决定了代理j根据其态度aj,t分享的消息mj,t。形式上,它也是一个连续的分数,是态度 aj,t 的函数:

大多数 ABM 假设代理与其他代理传达其内部态度时没有偏见,即mj,t = fmessage (aj,t) = aj,t

 2.1.2 具有LLM能力的智能体

        最近,一个不断发展的研究领域使用LLM来构建自主智能体,其关键思想是赋予LLM以人类的关键能力,如记忆和规划。在智能代理架构方面,现有研究可以整合为一个统一的框架,包括配置文件模块、记忆模块、规划模块和行为模块(Wang et al.,2023b)。这些模块旨在描述智能代理角色的配置文件,帮助智能代理积累经验和自我进化,分解复杂任务,并将智能代理的决定转化为具体结果。得益于LLM强大的生成能力,LLM赋能的智能体可以模拟用户更复杂的行为,而不仅仅是用单一的分数来表示观点。

2.2 任务制定

        在本文中,我们的目标是预测一组用户对社交运动事件的意见如何通过基于智能体的模拟而变化,并将模拟结果与真实场景进行比较。我们考虑一组用户U = {1,. ,U },他们每个人都参与在线社交活动,并对特定话题持有态度。态度会随着社交互动而变化。设ai,t∈A=[−1,1],表示用户i在第t步(t∈{1,2,…})持有的态度,其中ai,t的符号表示态度的方向,绝对值表示态度的大小。对于每个用户,我们用用户的初始态度和资料来实例化相应的代理,并根据Twitter上真实的关注关系构建社交网络。然后,我们的目标是:(1)在单轮模拟的模式下,在给定特定情境下模拟单个用户的行为;(2)持续模拟,观察用户互动产生的集体意见如何随时间变化。

3 社交媒体仿真的混合框架

        用户在社交网络中的参与通常呈现帕累托分布,即大部分内容来自一小部分人。因此,应该对意见领袖等更活跃、更有影响力的人进行精细建模,而沉默的大多数则可以用更简单的模型来控制。图2展示了总体框架,其中社交媒体用户被分为核心用户和普通用户。这两种用户由不同的模型驱动,以解决使用数千个LLM的成本和效率问题。

3.1 核心用户的模拟

        我们通过赋予LLM模拟核心用户所需的能力来构建代理架构。图2左下方显示了代理架构的概览。该代理配备了配置文件模块、内存模块和动作模块,以完成Twitter上的复杂操作。

3.1.1 个人资料模块

        我们从真实用户数据中提取并汇总了以下信息,并在模拟时提示相应的代理:人口统计学 基本资料是人口统计学信息,例如姓名、性别、政治倾向和账户类型(Brünker等人,2020)。这些信息与用户对社交事件的潜在立场高度相关。我们从用户的简历和之前的推文中推断出人口统计学信息。具体实现细节请参见附录B.2。社会特征 作为社交平台的参与者,代理人的社会特征(如活跃度和影响力)也具有重要的特征。活跃度量化了用户的互动频率,而影响力则反映了所产生内容的质量和受欢迎程度。由于用户在这些社会特征中表现出长尾分布,我们将其分为三个不等的层级(Zhang et al.,2023)。 沟通角色 为了更准确地描述参与社会运动的用户,我们整合了爱德曼的影响力拓扑(TOI)(Bentwood,2008;Tinati等,2012),以确定在线用户的沟通角色:(1)创意发起者:发起对话并发布原创内容的人。(2)放大器:收集多种想法并分享想法和观点的用户。(3) 策展人:他们使用更广泛的语境来定义想法。他们倾向于接受他人的想法,并对其进行验证、质疑、挑战或否定。 (4) 评论者:用户参与他们强烈感兴趣的事情。他们积极转发。 (5) 观众:不活跃的大多数,他们更喜欢消费信息,而不是在线创建或共享信息。

3.1.2 记忆模块

        我们考虑了两种类型的记忆来充分描述社交媒体用户并重建类人的记忆机制。 (1) 个人经验:个人经验是用户的真实记录,可以从用户在事件发生前的历史推文中提取。通过检索用户的有关经验和观点,可以更容易地推断出该用户在类似情况下的行为。 (2) 事件记忆: 事件记忆代表了代理本身和其他可见代理的观察。它捕捉了事件发生后,即模拟开始后的具体而集中的见解。我们整合了一个记忆模块来操纵代理的记忆,主要包括三个操作:记忆写入 原始观察包括代理本身的行为和代理可见的推文,在每轮交互后以自然语言和向量两种形式输入到记忆模块中。 记忆检索 代理可以从记忆中提取信息,并考虑不同的因素。检索功能根据最近性、相关性、重要性和即时性(Park et al., 2023; Chen et al., 2023)获取观察结果,其中最近性对最近访问过的记忆对象赋予更高的分数 ,相关性对与当前情境相关的记忆对象赋予更高的分数,重要性对智能体认为重要的记忆对象赋予更高的分数,即时性对需要快速关注或立即响应的记忆赋予更高的分数。随后,排名靠前的记忆被整合为提示的一部分。

记忆反思

        我们遵循Park等人的方法,定期进行反思,步骤包括:(1)根据代理人的近期经历提出最突出的问题;(2)促使代理人从检索到的相关记忆中提取高层次的见解。这种类型的记忆将在检索时与其他观察结果一起被纳入考虑范围。

3.1.3 行动模块

        我们为社交媒体生态量身定制了一个行动模块,其中行动与信息和态度传播密切相关,包括: (1) 发布:发布原创内容;(2) 转发:转发代理页面中已有的推文,可直接转发或发布附加声明;(3) 回复:回复已有推文的作者或回复;(4) 赞:点赞已有推文;(5) 不做任何操作:不做任何操作并保持沉默。可选操作通过提示呈现给代理人。代理人的响应随后被解析为对环境的具体影响,例如添加新推文或增加现有推文的转发量。

3.2 普通用户初始态度的模拟

        为了还原真实情况并为可靠的模拟奠定基础,我们根据相应用户在当时推文中的态度进行初始化,而不是将初始观点设置为均匀分布。这可以通过在Twitter上标注他们生成的内容的方向和密度来实现。态度变化机制 我们在第2.1.1节中采用ABM来模拟普通用户态度的变化。形式上,在时间步长t,智能体i根据选择函数fselection与一组智能体Ji,t进行交互。然后,选定的智能体根据消息函数fmessage(其为态度的函数)共享他们的消息。在收到消息后,代理i根据态度更新函数fupdate将其态度从ai,t更新为ai,t+1。

3.3 代理之间的交互

        在混合系统中,不同代理之间的交互如图2顶部所示。 同质代理之间的交互 核心用户通过生成特定内容,以自然语言的形式向他人传达他们的想法。例如,如图2所示,用户Anna在时间步t生成一个帖子,该内容将成为"Twitter页面"的一部分,在时间步t + 1时,其他关注Anna的用户将看到该内容。对于普通用户,信息根据ABM中定义的消息函数进行传输。 异构智能体之间的交互 由于ABM只接受数字输入和输出,我们需要将核心用户生成的内容转换为ABM的态度分数。外部LLM用于标注内容的立场,即态度方向,情感分析工具用于计算态度强度。经过这种后处理后,分数就可以由ABM中的消息函数处理了。考虑到普通用户对核心用户的影响是微妙的,我们目前不考虑普通用户对核心用户的影响。

3.4 模拟环境

        为了模拟和评估用户在真实事件中的反应,我们构建了一个类似于Twitter的模拟平台,代理位于其中并讨论模拟的执行。消息馈送机制 该环境基于时间轴的概念运行(Tinati等人,2012)。在这个环境中,每个用户都有一个由自己创建的推文的时间轴,以及他们关注的其他用户创建的推文的时间轴。此外,还有一个公共时间轴用于存储所有用户发送的推文。在每一轮中,都会提供最近的推文作为提示。离线新闻推送 一些离线事件往往成为社会运动的催化剂,例如乔治·弗洛伊德事件引发了广泛的#BlackLivesMatter运动。因此,我们以自然语言描述真实事件,作为核心用户代理的背景信息。

3.5 模拟过程

        我们的模拟器的运行方式因第2.2节中不同目的而异。为了验证用户行为的复制,模拟器可以以单轮方式运行,其中提供的背景是真实的。为了估计未来的公众舆论,我们的模拟器也可以以逐轮方式运行,其中后续背景包含模拟内容。在每一轮,即时间步长中,核心用户的代理在采取行动前会自主思考,然后决定采取什么行动。总的来说,核心用户的LLM代理根据以下信息采取行动:(1)代理的个人资料或描述;(2)代理的记忆;(3)触发离线新闻;(4)代理可看到的推特页面;(5) 包含对代理回复的通知。附录 C.3 中有一个完整的提示示例。普通用户的代理会根据 ABM 中预先定义的公式和其他代理的感知信息更新他们的态度。附录 C.1 中的算法显示了此过程。

表1:数据集统计。在Metoo中,E1是美国女演员阿丽莎·米兰诺(Alyssa Milano)发起#Metoo运动,E2是2019年金球奖上的#Timesup活动;在Roe中,E1是最高法院意见草案的泄露,E2是最高法院推翻Roe v. Wade案;在BLM中,我们包括乔治·弗洛伊德(George Floyd)被谋杀后的两个阶段。标题

 4 SoMoSiMu-Bench:社会运动模拟的基准

        在此部分,我们将介绍SoMoSiMu-Bench,这是一个模拟评估的基准。我们构建了一个数据集,由Twitter上的三个社会运动组成。然后,我们设计了微观和宏观层面的评估策略。

4.1 数据集

        我们首先介绍数据集的构建。 数据收集 为了广泛评估所提方法的模拟性能,我们收集了与特定社会运动相关的推文,构建了三个Twitter数据集,即Metoo(Maiorana等人,2020)、RoeOverturned(Roe)(Chang等人,2023)和BlackLivesMatter(BLM)(Giorgi等人,2022)。对于每个运动,我们收集了两个特定事件或阶段(如表1所示)的推文。 用户选择 由于缺乏对核心用户的权威定义,我们根据实践中的活动和影响力指标对所有参与者进行排名,以此确定核心用户。从收集的推文中,我们首先根据收到的转发数量确定前100名最具影响力的个人,然后从中选出300名核心用户。然后,我们根据推文的总体频率,从他们的社交网络上再选出200名活跃用户。接下来,我们从活动期间发布推文的普通用户中随机抽取样本。随后,我们收集他们在活动期间的社交网络和推文,并使用GPT3.5(OpenAI,2023)和Textblob 3标注态度分数。为了降低验证的标注成本,而不是模拟成本,我们保留了700个普通用户。因此,每个事件的模拟需要1000个用户。表1列出了数据集的统计信息。更多详细信息请参见附录B。

4.2 微观一致性评估

        为了评估单个模拟的有效性,我们通过向每个核心用户代理提供真实的上下文信息进行单轮模拟,并评估他们的决策。 - 立场一致性: 我们评估生成内容的立场,即将其分为三类:支持、中立和反对。由于类别集中在支持和中立上,因此还报告了态度得分的平均绝对误差(MAE)。内容一致性:我们将代理生成的内容分为5类,即号召性用语、观点分享、第三方参考、证词和其他(Brünker等人,2020)。报告了准确性和宏观 F1 分数,还提供了模拟内容与真实内容之间的余弦相似度。行为一致性:我们评估代理是否采取用户采取的相应行动。由于在 Twitter 数据集中只能观察到发布和转发,我们将行动空间缩小为发布和转发。报告了准确性和宏观 F1 分数。

4.3 宏观系统评估

        为了评估宏观层面的模拟效果,我们在一轮完整的多轮模拟中从横向和纵向两个角度量化态度分布。

        静态态度分布:我们以定量的方式捕捉态度分布的特征:偏差和多样性(Lorenz et al.,2021)。偏差是指平均态度与中立态度的偏差,多样性是指态度的标准差。我们测量每个时间步长,并计算一段时间内的平均值。报告模拟测量值和实际测量值之间的差异∆Bias和∆Div。

        平均姿态的时间序列:我们使用动态时间扭曲(DTW)(Müller,2007)和皮尔逊相关系数(Cohen等人,2009)来测量平均姿态的时间序列与模拟时间序列之间的相似性。

校准和验证

        为了找到混合系统中ABM的适当参数,我们执行校准和验证设置(Gestefeld和Lorenz,2023)。校准旨在找到参数的最佳组合,以帮助匹配经验分布。我们指定参数扫描的参数值,以在每个运动的E1或P1上产生仿真结果。然后,我们报告E2或P2的验证结果。由于用线性代数模型进行数百次模拟是不现实的,因此我们在纯ABM中进行校准,并将最佳参数应用于混合模型。详情见附录C.4。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值