论文阅读-Unveiling the Truth and Facilitating Change: Towards Agent-based Large-scale Social Movement Si

 链接: https://arxiv.org/pdf/2402.16333

目录

 Abstract

1 Introduction

2 .舆论的形式化动力学仿真

2.1 Preliminaries

2.1.1基于agent的Opinion模型动力学

2.1.2 LLM-empowered Agents

2.2 Task Formulation

3 .社交媒体混合框架模拟

3.1 Simulation of Core Users

3.1.1 Profile Module

3.1.2 Memory Module

3.1.3 Action Module

3.3 Interaction between Agents

3.4 Simulation Environment

3.5 Simulation Process

4 . SoMoSiMu-Bench:游戏的基准测试社会运动模拟

4.1 Datasets

4.2 Micro Alignment Evaluation

4.3 宏观系统评价

Conclusion

 


 

 Abstract

        社交媒体已经成为社会运动的基石,在推动社会变革方面发挥着重要作用。

        模拟公众的反应和预测潜在的影响变得越来越重要。

        然而,现有的模拟这种现象的方法在捕捉社会运动参与者的行为方面遇到了功效和效率方面的挑战

        在本文中,我们引入了一个用于社交媒体用户模拟的混合框架HiSim,其中用户分为两种类型。

        核心用户由大型语言模型驱动,而众多普通用户则由基于演绎代理的模型建模

        我们进一步构建了一个类似twitter的环境来复制它们在触发事件后的响应动态。

        随后,我们开发了一个多方面的基准SoMoSiMu-Bench进行评估,并在现实世界的数据集上进行了全面的实验。实验结果证明了该方法的有效性和灵活性。

1 Introduction

        在过去的几十年里,社交媒体见证了许多社会运动,如阿拉伯之春(Rane and Salem, 2012)和#Metoo (br<s:1> nker et al., 2020)。Twitter作为一个杰出的论坛脱颖而出,为要求变革的群体提供了强有力的声音。

        如图1所示,Twitter上突发新闻的传播促进了观点的扩散,影响了集体情绪,塑造了社会议程,往往导致现实世界的行动(Roy和Goldwasser, 2023)。尽管据报道,大多数社会运动都是和平的,但参与的规模有时会升级为暴力和破坏,造成潜在的暴乱。因此,采取积极措施预测此类事件的影响变得势在必行。

        之前分析网络社会运动的研究主要集中在对内容和用户的回顾性分析上(Giorgi et al., 2022;Roy and Goldwasser, 2023),而不是利用模拟进行预测。基于主体的模型(ABMs)已广泛应用于社会科学仿真(Schelling, 2006;Jackson et al., 2017),其中每个代理都象征着一个个体,代理之间的相互作用产生了不同的社会现象。通常,ABMs是微观层面的数学模型,定义个体如何相互影响,通过模拟大规模的互动来创建集体社会模式(Törnberg等人,2023)。

        最近,大型语言模型(llm)在人类水平的智能方面表现出了令人印象深刻的能力(Wang et al., 2023b;Xi et al., 2023)。基于llm的用户模拟已经成功地在推荐等领域进行了实验(Wang et al., 2023c;Zhang et al., 2023)和协同工作(Chen et al., 2023;)然而,利用LLM进行大规模在线社会运动模拟的探索仍然有限,并提出了以下挑战:(1)如何准确地模拟社交媒体用户并在社区内复制他们的行为?(2)如何高效地模拟大量用户,考虑到聘请数千名LLM的不可行性?(3)如何综合评价仿真的有效性?

        为了应对这些挑战,本文介绍了HiSim:一种用于社交媒体用户模拟的新型混合框架。考虑到社交媒体用户参与度固有的帕累托分布2,我们将用户分为两类:核心用户,包括活跃和有影响力的人物,如意见领袖,以及普通用户。核心用户由llm表征和驱动,可以模拟其复杂行为,而大量普通用户由abm控制,为大规模用户模拟提供了一种实用的方法。

        

        基于两类用户组成的混合机制,我们建立了一个适合在线社交运动模拟和评估的在线社交媒体环境。在这种环境中,消息按照类似twitter的时间线组织起来,离线新闻也可以传播。用户互动和由此产生的集体态度是通过态度评分来观察的。为了系统地评估模拟,我们提出了一个新的基准SoMoSiMu-Bench,包括三个真实世界收集的数据集(Metoo, roe和BlackLivesMatter)和微观和宏观层面的评估策略,分别关注个人用户一致性和系统结果。在SoMoSiMu-Bench上的评估结果证明了该仿真框架的有效性。

        我们的贡献可以总结如下:

        -我们引入了一个混合仿真框架,其中两种类型的用户分别建模,以解决与模拟大规模参与者相关的成本和效率挑战。

        -我们开发了一个为在线社会运动量身定制的模拟器,具有类似twitter的环境和用户意见动态建模。

        -我们为社会运动模拟评估提供了第一个基准SoMoSiMuBench,包括数据收集组成的三个现实世界的运动和相应的评估方法。实验结果和分析证明了该方法的有效性。

2 .舆论的形式化动力学仿真

        模拟人们的态度、信仰和观点的变化是至关重要的,因为观点的变化会导致两极分化和极端化等社会现象。在本节中,我们介绍了基于智能体的模型的初步介绍和目标任务的制定。

2.1 Preliminaries

2.1.1基于agent的Opinion模型动力学

        基于主体的模型(ABMs)是微观层面的数学模型,定义了个体主体如何根据他人的意见调整对特定主题的态度(Lorenz et al., 2021;庄和罗杰斯,2023)。通过模拟个体行为之间的相互作用,ABMs能够识别突现的、群体层面的机制,这些机制无法单独使用社会系统中的个体特征来预测(Törnberg et al., 2023)。

        通常,在意见动态的ABMs中,每个agent保持一个连续的态度分数,代表其意见,其中分数的符号代表态度方向,即积极或消极,分数的大小描述了态度强度。ABMs定义了这个分数在其他人的影响下是如何变化的。尽管在不同的abm中确切的公式是不同的,但大多数模型都可以分解成跨abm存在的组件,并以统一的公式表示(Chuang和Rogers, 2023),其中有三个关键函数可以指定它,即态度更新函数fuupdate,选择函数selection和消息函数message

        更新函数:更新函数一般定义了态度的改变。正式地说,态度更新是:

 其中∆ai,t为智能体i从时间步长t到t+1的态度变化,ai,t和ai,t+1为智能体i交互前后的态度,

        Mi,t = {mj,t | j∈Ji,t}为智能体i从Ji,t接收到的消息,即在时间步长t与智能体i交互的消息。

        选择函数:决定了对agent i产生社会影响的agent集合Ji,t,它可以由内部因素驱动,如内部管理,与更相似的agent进行交互,也可以由外部因素驱动,如平台的推荐算法。

        消息函数:消息函数根据agent j的态度aj,t确定agent j共享的消息mj,t。形式上,它也是一个连续的分数,是态度aj,t的函数:

         大多数abm假设主体向其他主体无偏见地传递其内部态度,即mj,t = fmessage (aj,t) = aj,t。

2.1.2 LLM-empowered Agents

        最近,越来越多的研究领域使用llm来构建自主代理,其关键思想是为llm配备关键的人类能力,如记忆和规划。在agent体系结构方面,现有的研究可以综合成一个由profile模块、memory模块、planning模块、action模块组成的统一框架(Wang et al., 2023b)。它们的设计是为了表明代理角色的概况,帮助代理积累经验和自我进化,解构复杂的任务,并将代理的决策转化为具体的结果。得益于llm强大的生成能力,llm授权的代理可以模拟更复杂的用户行为,而不是简单地用一个分数来表示意见

2.2 Task Formulation

        在本文中,我们旨在通过基于智能体的模拟来预测一组用户对社会运动事件的看法如何变化,并将模拟结果与现实场景进行比较。

        我们考虑一组用户U ={1,…, U},每个人都参与在线社会运动,并对特定主题持不同态度。态度是通过社会互动而演变的。设ai,t∈A =[−1,1]为用户i在时间步长t∈{1,2,…}= N时所持的姿态,其中ai,t的符号表示姿态的方向,ai,t的绝对值表示姿态的大小。对于每个用户,我们使用用户的初始态度和个人资料实例化相应的代理,并基于Twitter上的真实关注关系构建社交网络。然后,我们的目标是(1)以单轮模拟的模式在给定的特定情境下,在个人层面上模拟用户的行为;(2)持续模拟观察集体意见如何由用户交互产生的随时间变化。

3 .社交媒体混合框架模拟

        社交网络中的用户参与度通常呈现帕累托分布,即大部分内容来自一小部分个人。因此,那些更活跃和更有影响力的人,如意见领袖,应该被精细地建模,而沉默的大多数可以用更简单的模型来控制。总体框架如图2所示,其中将社交媒体用户分为核心用户和普通用户。这两种类型的用户由不同的模型驱动,以解决使用数千个llm的成本和效率问题。

(图2:建议的框架体系结构。底部部分说明了核心用户的体系结构和普通用户的机制。顶部是仿真过程。在每一轮中,核心用户代理通过基于上下文信息生成文本响应来采取行动,并通过后处理将其态度传递给普通用户,而普通用户则直接使用态度得分进行交流)

3.1 Simulation of Core Users

        我们通过赋予llm必要的核心用户模拟功能来构建代理架构。图2的左下部分展示了代理体系结构的概述。agent配备了配置模块、内存模块和动作模块,完成Twitter上的复杂操作。

3.1.1 Profile Module

        我们从真实用户数据中提取总结如下信息,并在模拟时提示相应的agent:

        基本概况是人口统计数据,如姓名、性别、政治倾向和账户类型(br<s:1> nker et al., 2020)。这些信息与用户对社交事件的潜在立场高度相关。我们从用户的传记和以前的推文中归纳出人口统计数据。实现细节可在附录B.2中找到。

B.2 Profile Construction

        为了尽量减少注释引起的噪音,我们首先使用严格规则的正则表达式从一个人的简历中识别性别、政治倾向和账户类型。然后,我们提示GPT-3.5-Turbo-0613来推断那些不能直接匹配的。帐户类型的候选列表来自(br<s:1> nker等人,2020):[记者,私人,名人,媒体组织,活动家,政治家,社交机器人,非政府组织,国际组织,公司,政府组织,暂停帐户]。

         作为社会平台的参与者,代理人的社会特征(如活动和影响力)也捕捉到了重要的特征。活动量化了用户互动的频率,而影响力反映了生成内容的质量和受欢迎程度。由于用户在这些社会特征中表现出长尾分布,我们将其划分为三个不均匀的层(Zhang et al., 2023)。

        为了更准确地描述参与社会运动的用户,我们整合了Edelman的影响力拓扑(TOI)。来识别在线用户的交流角色:(1)I(1)概念开场白:开始谈话的人发布原创内容。(2)放大器(Amplifier):收集多种思想并分享想法和观点的用户。(3)策展人:他们使用更广泛的背景来定义想法。他们倾向于接受别人的想法,要么证实,要么质疑,要么挑战,要么否定。(4)评论员:参与他们有强烈感觉的事物的用户。他们积极转发。(5)浏览者:不活跃的大多数,他们更喜欢消费信息,而不是在网上创造或分享信息。

3.1.2 Memory Module

        我们考虑了两种类型的记忆,以充分表征社交媒体用户并重建类人记忆机制。

        (1)个人体验:个人体验是用户的真实记录,可以从事件发生前用户的历史推文中提取出来。通过检索用户的相关经验和意见,可以更容易地推断出该用户在类似情况下的行为。

        (2)事件记忆(Event Memory):事件记忆代表了对代理本身和其他可见代理的观察。它捕捉具体和集中的见解

        原始的观察结果,包括代理自己执行的行为和代理可见的tweet,在每轮交互之后以自然语言和向量的形式输入到内存模块中。

        记忆检索代理可以根据不同的因素从记忆中提取信息。检索函数根据近时性、相关性、重要性和即时性获取观测值(Park et al., 2023;Chen et al., 2023),其中近因性给最近访问的记忆对象分配更高的分数相关性给与当前情况相关的记忆对象分配更高的分数重要性给代理认为重要的记忆对象分配更高的分数,即时性给需要快速关注或立即响应的记忆对象分配更高的分数。排名靠前的记忆随后被整合为提示的一部分。

        我们加入了反射操作来促使agent产生高层次的思想。我们跟随Park等人到定期补充反思,步骤包括:(1)根据代理最近的经验,生成可以问的最突出的问题;(2)提示代理从检索到的相关记忆中提取高层次的见解。当检索发生时,这种类型的记忆将与其他观察一起包含。

3.1.3 Action Module

        我们设计了针对社交媒体生态量身定制的动作模块,其中动作与信息和态度传播高度相关,包括:(1)发布:发布原创内容;(2)转发:转发代理页面中已有的一条tweet,可以直接转发,也可以附加声明;(3)回复:对已有推文或回复的作者进行回复;(4)点赞:点赞一条已有的推文;(5)什么都不做:什么都不做,保持沉默。可选操作通过提示呈现给代理。然后将代理的响应解析为对环境的具体影响,例如添加一条新推文或增加现有推文的转发量。

3.3 Interaction between Agents

        在混合系统中,不同代理之间的交互显示在图2的顶部。同质代理之间的交互核心用户通过生成特定的内容,以自然语言的形式向他人传达他们的想法。例如,如图2所示,用户Anna在时间步长t生成一篇文章,该内容将成为提示符at中的“Twitter页面”的一部分其他关注Anna的用户的时间步长为t + 1。对于普通用户来说,信息是根据abm中定义的消息函数来传递的。

        由于ABMs只接受数字输入和输出,我们需要将核心用户生成的内容转换为ABMs的态度分数。使用外部llm来标注立场,即内容的态度方向,并使用情感分析工具计算态度强度。经过这种后处理后,分数就可以通过ABMs中的消息函数进行处理。考虑到普通用户对核心用户的影响是微妙的,我们目前不解决普通用户对核心用户的影响

3.4 Simulation Environment

        为了模拟和评估用户在真实事件中的反应,我们建立了一个类似twitter的模拟平台,代理位于其中,并讨论了模拟的执行。

        该环境基于时间轴的概念运行(Tinati et al.;2012)。在这种环境中,每个用户都有一个由他们自己和他们关注的其他用户创建的tweet时间轴。此外,还保留了一个公共时间表来存储所有用户发送的tweet。在每一轮中,都会提供最新的tweet以供提示。

        一些线下事件往往会成为社会运动的催化剂,比如乔治·弗洛伊德事件引发了广泛的#黑人生命也重要#运动。因此,我们提供了用自然语言描述的真实事件作为核心用户代理的背景信息。

3.5 Simulation Process

        在第2.2节中,我们的模拟器以不同的方式用于不同的目的。

        为了验证用户行为的复制,模拟器可以在单轮中运行,其中提供的上下文是真实的。

        为了估计未来的公众意见,我们的模拟器还可以以轮接轮的方式运行,其中后续上下文包含模拟内容。在每一轮,即时间步,核心用户的代理在采取行动之前自主地给出一个想法,然后决定他们想要采取什么行动。

        总体而言,核心用户的LLM代理基于以下信息执行操作:

                (1)代理的配置文件或描述;

                (2)代理人的记忆;

                (3)触发线下新闻;

                (4)Twitter页面显示代理可见的tweet;

                (5)包含对代理答复的通知。

        一个完整的提示示例可以在附录C.3中找到。

        普通用户的代理根据abm中预定义的公式和从其他代理感知到的消息更新他们的态度。该过程在附录C.1中的算法中显示。

4 . SoMoSiMu-Bench:游戏的基准测试社会运动模拟

        在本节中,我们介绍了SoMoSiMu-Bench,这是一个用于模拟评估的基准。我们构建了一个数据集合,由Twitter上的三个社会运动组成。然后,从微观和宏观两个层面设计评价策略。

4.1 Datasets

        为了广泛评估所提出方法的模拟性能,我们通过收集与特定社会运动相关的推文来构建三个Twitter数据集,即Metoo (Maiorana等人,2020),roe(Roe) (Chang等人,2023)和BlackLivesMatter (BLM) (Giorgi等人,2022)。对于每个运动,我们收集跨越两个特定事件或阶段的tweet,如表1所示。

        用户选择 由于核心用户缺乏权威的定义,我们在实践中通过根据活跃度和影响力指标对所有参与者进行排名来识别核心用户。从收集的推文中,我们首先根据收到的转发数量确定前 100 位最有影响力的个人,从而选择 300 名核心用户。然后,我们根据以下条件从社交网络中选择另外 200 名活跃用户,从而扩展此选择:他们的整体推文频率。接下来,我们从活动期间发推文的普通用户中随机抽取样本。随后,我们在活动期间收集他们的社交网络和推文,并使用 GPT-3.5(OpenAI,2023)和 Textblob 3 注释态度分数。

        为了减少验证的注释成本,而不是模拟成本,我们保留了 700 - 普通用户。结果,每个事件的模拟都会获得 1,000 个用户。数据集的统计数据如表1所示。更多详细信息请参见附录B。

4.2 Micro Alignment Evaluation

        为了评估个人层面模拟的有效性,我们通过向每个核心用户代理提供真实的上下文信息来进行单轮模拟并评估他们的决策

        立场一致性:我们评估生成内容的立场,即将其分为三类:支持、中立和反对。由于类别集中在支持和中立上,因此还报告了态度得分的平均绝对误差(MAE)。

        内容对齐:我们将代理生成的内容分为 5 种类型,即呼吁采取行动、分享意见、参考第三方、证词和其他(Brünker et al., 2020)。报告准确性和宏观 F1 分数,还提供模拟内容和真实内容之间的余弦相似度。

        行为对齐:我们评估代理是否采取用户所做的相应操作。由于在 Twitter 数据集中只能观察到发帖和转发,因此我们缩小了发帖和转发的操作空间。报告准确度和宏观 F1 分数。

4.3 宏观系统评价

        为了在宏观层面评估模拟的有效性,我们在完整的多轮模拟中从水平和垂直角度量化了态度分布。

        - 静态态度分布:我们以定量的方式捕捉态度分布的特征:偏差和多样性(Lorenz et al., 2021)。偏差是指平均态度与中性态度的偏差,多样性是态度的标准偏差。在每个时间步长和一段时间内的平均值。模拟测量值和实际测量值之间的差异 ΔBias 和 ΔDiv。被报道。

        - 平均态度的时间序列:我们使用动态时间规整(DTW)(Müller,2007)和皮尔逊相关系数(Cohen et al.,2009)来测量平均态度的时间序列与模拟的时间序列之间的相似性.

        校准和验证为了找到混合系统中 ABM 的正确参数,我们执行校准和验证设置(Gestefeld 和 Lorenz,2023)。校准旨在找到有助于匹配经验分布的最佳参数组合。我们指定参数扫描的参数值,以在每个运动的 E1 或 P1 上产生模拟结果。然后,我们报告 E2 或 P2 上的验证结果。由于使用 LLM 进行数百次模拟是无法承受的,因此我们在纯 ABM 中进行校准,并将最佳参数应用于混合模型。详细信息参见附录C.4。

Conclusion

        在本文中,我们提出了一种用于社交媒体用户模拟的混合框架。我们为核心用户和普通用户提供LLM和ABM,并提供类似Twitter的环境和基准SoMoSiMu-Bench进行模拟和评估。实验结果证明了我们方法的有效性和灵活性。

  • 8
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值