论文题目:User Behavior Simulation with Large Language Model based Agents
论文链接:https://arxiv.org/abs/2306.02552
目录
2.2 Large Language Model-based Simulation
3 S3 : Social Network Simulation
3.2 Social Network Environment
3.3 Individual-level Simulation
3.3.4 Interactive Behavior Simulation
3.4 Population-level Simulation
4 Architecture and Methodology
4.2.1 Social Network Construction
4.2.2 User Demographics Prediction
4.4.1 Content-generation Behavior
4.5 Other Implementation Details
摘要
论文工作:
利用大型语言模型(llm)在感知、推理和行为方面的类人能力,并利用这些特性构建S3系统(简称社交网络仿真系统)。
采用微调和提示工程技术来确保代理的行为与社会网络中真实的人的行为密切相关。
模仿三个关键方面:情感、态度和互动行为。
实验现象:
通过赋予系统中的代理感知信息环境和模仿人类行为的能力,观察到人口水平现象的出现,包括信息、态度和情绪的传播。
进行了一个评估,包括两个层次的模拟(性别歧视和核能),采用现实世界的社会网络数据。结果显示了良好的准确性。
这项工作代表了由基于llm的代理授权的社会网络模拟领域的第一步。
1 绪论
由社会中相互联系的个人组成的社会网络构成了当代世界的基石。
社交模拟的核心包含两个视角:
个体之间的动态反馈或互动;
人口的状态,无论是作为一个整体还是作为不同的群体;
社交模拟可以以两种形式实现: 微观层面仿真和宏观层面仿真
在宏观层面的模拟中,也称为基于系统的模拟,研究人员使用阐明种群变化状态的方程来模拟系统的动力学。
微观模拟,或基于代理的模拟,涉及研究人员使用人工制定的规则或参数化模型来描述与他人交互的个体(称为代理)的行为。
利用llm作为类似代理的实体来模拟类似人类的行为,利用LLM的三个基本能力:
LLM拥有感知和理解世界的能力,尽管仅限于可以用文本形式充分描述的环境;
通过利用结合任务需求和相应奖励的推理技术来设计和组织任务计划。
llm有效地维护和更新记忆清单,采用根植于人类推理模式来引导提示(prompt)。
社交网络仿真系统(S3)构建方法:
1. 使用真实的社交网络数据建立一个环境;提出了一个用户人口统计推断模块,它结合了提示工程和提示微调,来推断用户的人口统计数据,如年龄、性别和职业
2. 在构建的环境中,用户有能力观察他们关注的个人的内容,从而影响他们自己的态度、情绪和随后的行为。用户可以转发内容、创建新内容或保持不活动状态。因此,在个人层面上,采用提示工程和提示微调方法来模拟态度、情绪和行为。
3. 这个模拟考虑了人口统计和历史发布内容的记忆。在人口层面上,个体行为的积累,包括内容的生成和转发,以及态度和情绪的内部状态的演变,导致集体行为的出现。
社交网络仿真系统(S3)的评估:
选择了两个典型的场景:性别歧视和核能
性别歧视: 目标是模拟用户对与此问题相关的在线内容的反应,同时密切观察相关信息的传播模式和公众情绪的演变。
核能: 模拟用户对与权力政策相关的在线内容的反应,模拟两个对立人群之间有争议和冲突的互动
采用衡量个人和群体水平准确性的指标。
文章工作的主要贡献:
采用大型语言模型(llm)模拟社交网络,它遵循基于代理的模拟范式,并赋予代理最新的进展。
开发一个支持个体水平和群体水平模拟的仿真系统,可以从收集的真实社会网络数据中学习,并模拟未来状态。
系统地进行了评估,结果表明仿真系统具有良好的性能。llm授权的代理可以在多个指标中实现相当高的准确性。
2 相关工作
2.1 Social Simulation
“模拟意味着用合适的输入驱动一个系统模型,并观察相应的输出”。
社交仿真的作用:
帮助社会科学家理解社会世界的特征。
驱动社会行为的内部机制是无法直接观察到的
通过验证理论假设和通过应用更精确的形式化来增强理论
早期的方法主要集中在准确预测变量,而不是阐明潜在的机制或因果关系
2.2 Large Language Model-based Simulation
大模型:GPT series, PaLM series , LLaMA, GLM
案例:
Aher等人[1]进行了初步测试,发现LLM具有重现一些经典的经济学、心理语言学和社会心理学实验的能力。
Horton等用LLM agent代替人类参与者,并给予其禀赋、信息、偏好等提示,模拟经济行为。llm授权代理的结果显示与原始论文(人体实验)在质量上相似。
[15]采用基于LLM的众包方法,通过收集代表真人的LLM化身的反馈来支持计算社会科学的研究。
Part等[28]基于视频游戏环境构建了一个由25个llm授权的智能体组成的虚拟城镇,智能体可以对日常生活中的活动进行计划和调度。
3 S3 : Social Network Simulation
3.1 System Overview
目标:
确保模拟达到显著程度的定量准确性,迎合个人水平和群体水平的模拟
个人层面:通过利用用户特征、社交网络中的信息环境以及控制用户认知感知和决策的复杂机制来复制行为、态度和情感。
人口层面:通过仔细观察模拟三个关键社会现象:信息、态度和情感的传播过程的表现,进一步评估了人口水平的动态。
3.2 Social Network Environment
研究针对两个具体的焦点,即性别歧视和核能。选择这些特定主题是因为它们具有高度争议的性质,这产生了广泛的数据语料库。
核能:
对核能的调查集中在调查公众对支持核能还是依赖化石燃料的选择的普遍态度
性别歧视
至于性别歧视,目标是深入研究个人和人群的情感体验,特别是那些由性别歧视事件引起的情感体验,比如愤怒的感觉
如此大量数据的可用性有助于提取真实网络的很大一部分,从而使我们能够获得与现实非常接近的宏观视角。
文章收集了社交媒体中的用户、社交关系和文本帖子的真实数据:
由于直接从社交媒体获得的用户信息的可用性有限,从文本数据(如用户帖子和个人描述)中提取缺失的用户人口统计数据变得势在必行。
LLM从文本信息中捕获用户人口统计特征,特别强调预测年龄、性别和职业
整合从社交网络数据中推断出的人口统计属性,能够呈现出用户行为和交互的增强和更真实的表示
3.3 Individual-level Simulation
利用初始化的社会网络环境,系统从个人层面开始模拟:
确切地说,用户获得了对信息环境的感知,从而影响了他们的情绪和态度。
之后,用户被授予转发观察到的帖子,生成新内容,或保持不活跃。
个人模拟包括三个方面:情感,态度和互动行为(后续一一介绍)
3.3.1 Emotion Simulation
重要性和挑战性:
模拟用户情绪对于社交网络模拟来说是至关重要的,因为它会显著影响用户传达其预期信息的方式。
模拟情绪是具有挑战性的,因为人类情绪涉及多种因素和复杂的关系。
利用LLM固有的丰富的人类行为知识,使用LLM来模拟个人情绪。
该模型对于情感的模拟:
将用户对特定事件的潜在情绪分为三个层次:平静、适度和强烈。
情绪变化过程:
当用户没有意识到这一事件时,他们的默认情绪水平将被设置为平静。
然而,当他们意识到这一事件时,他们的情绪状态开始发生变化。
为了捕捉情感的这种动态本质,采用了马尔可夫过程。
这个过程考虑了几个因素,包括用户当前的情绪水平、用户配置文件、用户历史记录和当前时间步收到的消息。
情感模拟方法在个人层面上取得了可喜的结果:使用真实世界的数据进行评估,该方法在预测下一个时间步的情绪方面表现良好。
3.3.2 Attitude Simulation
重要性和挑战:
正如模拟用户情绪对社交网络模拟至关重要一样,模拟用户态度也同样重要。在虚拟的社会环境中,态度的再现是复杂而又不可或缺的。
这些态度的结合引导了用户对不同话题的行动、意见和决定。
这一模拟的挑战在于态度的多面性和主观性,受到各种内部和外部因素的影响,从个人经验和信仰到社会影响和感知规范。
态度的变化:
假设用户对特定问题有最初的态度,这种态度会随着事件的发展而改变。
这种态度的动态调整反映了现实世界的社会互动,人们会根据不断变化的环境、有影响力的人物或令人信服的论点改变自己的观点。
模型对态度模拟的实施步骤:
该模型对态度的模拟,非常类似于情绪状态,在二元谱上跟踪用户的态度,这只包括对事件的消极和积极立场:
第一步是为用户的态度建立初始状态。这是从用户档案和用户历史中衍生出来的,反映了他们基于过去的交互和行为的倾向;
一旦初始状态建立,立场变化的动力学就被建模为马尔可夫过程。
这些态度的后续演变不仅包括用户当前的态度,还包括他们的个人资料、历史和当前时间步收到的消息
这些因素共同被用来预测用户在接下来的时间步中的态度。
初始态度和态度变化的评估都是基于LLM确定的。
模型效果:
在预测初始态度的任务中,该方法产生的精度为74.3%, AUC得分为0.727,f1 -得分为0.667
在接下来的态度变化预测任务中,该方法表现得更好,达到了83.9%的准确率,AUC得分为0.865,F1-Score为0.857。
3.3.3内容生成行为模拟
重要性和挑战:
在现实世界的社交网络中,用户根据他们对不同事件的普遍态度和情绪来塑造他们的内容。
模拟这种内容创建过程是社交网络模拟的一个必要但复杂的方面。
每个生成的内容都是用户内部状态和外部影响的一面镜子,体现了他们对当前事件的个人看法
挑战的关键在于封装用户用来表达他们的情感、观点和反应的各种表达和风格。
实施方法:
通过输入用户的个人资料,以及他们当前的态度或情绪状态,这些模型能够生成内容,忠实地再现用户对特定事件的回应。
这种方法,通过大型语言模型的功能,能够制作一个复杂的模拟,反映现实世界社交网络中的内容生成过程。
因此,它提供了对用户的态度和情绪如何反映在他们的内容中的细微理解,为社会动态研究提供了宝贵的见解。
实验效果:
在性别歧视场景下,与实际用户生成的文本相比,模型Perplexity得分为19.289,平均余弦相似度为0.723。
在核能情景的情况下,这些数字更加令人印象深刻,其Perplexity得分为16.145,平均余弦相似度为0.741。
3.3.4 Interactive Behavior Simulation
重要性:
在模拟过程中,当用户从他们的一个追随者那里收到消息时,用户面临着一个相应的决定: 是否参与转发,发布新内容或什么都不做。
有效地对决策过程进行建模是模拟信息传播的重要手段。
实施方法:
通过数据驱动方法,利用大型语言模型(llm)通过捕获用户和上下文之间的复杂关系来模拟用户的交互行为。
输入是用户感知到的信息环境,由llm授权的代理通过从观察到的真实数据中学习来做出决策。
模型性能:
在性别歧视的场景中,模型准确率为66.2%,AUC为0.662,F1-Score为0.667。
进入核能环境,该模型的性能仍然稳健,具有准确率为69.5%,AUC为0.681,F1-Score为0.758。
3.4 Population-level Simulation
信息传播侧重于描述社会环境中事件的新闻的传播。
情绪传播强调人们对特定事件或话题的情感的社会传染。
态度传播是指人们在社交网络中交换自己的态度或观点。
3.4.1 Information Propagation
挑战和前人研究案例:
随着数字媒体的广泛采用,信息的传播速度显著加快。 在设计用于模拟社会网络的仿真系统的背景下,其最重要的功能之一在于准确地建模信息传播过程并描绘关键的相变;
Notarmuzi等人[26]进行了大规模的广泛实证研究,成功地提炼出社交媒体中信息传播的普遍性、关键性和复杂性等概念。
Xie等人[38]在广泛接受的渗透理论基础上进行了扩展,巧妙地捕捉到了社交媒体平台上信息传播所固有的复杂相变。
该论文方法:
与以往基于物理模型的研究不同,该文章方法采用LLM的视角来捕捉信息传播过程的动态。为了确定S3模型的有效性,选择了两个典型事件:
(i)八孩母亲活动;该事件在2022年1月底引起了公众的注意。包括一系列有争议的问题,如性侵犯和女权主义。
(ii)日本核废水泄漏事件。该事件导致日本政府决定将核废水排放到海洋中,引发了全球的密切关注和兴趣。
利用该论文模拟器作为基础,采用定量方法来评估上述事件的时间传播:
这是通过计算在每个时间步骤中知道事件的总人数来实现的,随后,通过与实证数据的对比分析。对比下图(a)和(b)
模拟器在准确预测这两个事件的传播模式方面表现出值得称赞的能力。
随着时间的推移,上升速率逐渐变得微不足道,这也可以由该模拟器捕获。
3.4.2 Emotion Propagation
Wang等人[37]采用自然语言处理技术(BERT),对情绪状态进行频繁的全球测量,以衡量流行病和相关政策的影响。
S3利用最先进的LLM从现实世界的数据中提取情感,并模拟基于LLM的智能体之间的情感传播。
为了检验S3模拟器是否也能再现情绪传播过程,论文进一步模拟用户在八孩妈妈事件中表达的情绪:
从agent之间的文本交互中提取情感密度。
对比模拟结果和经验观察结果,发现模型能够很好地捕捉情绪传播的动态过程。
观察到事件中有两个情绪高峰。这表明,如果事件的消息在更大的社区中传播得更慢,可能会出现情绪强度的第二次高峰。
基于从实际数据中获得的初始化,模型成功地再现了这些不同的峰值,从而证明了所提出的方法的有效性。
3.4.3 Attitude Propagation
当今最令人关注的问题之一是对有争议的话题或事件持不同态度的人群之间的两极分化和对抗。
人们已经做了大量的工作来量化现实世界的极化,并使用协同进化模型模拟极化过程。
S3使用LLM模拟传播态度,预测社会网络中的极化模式:
模型关注日本核废水排放事件,人们对核能的态度两极分化。
随着相关信息的传播,对核能的积极态度迅速下降,呈现出明显的低谷。
通过模拟代理人之间重复的相互作用,再现了积极态度的突然减少,也捕捉到了它们的逐渐增加。
这些观察结果表明,提出的模型不仅可以模拟姿态传播,而且可以捕捉到真实场景中的关键动态模式。
4 Architecture and Methodology
4.1 Architecture Design
为了模拟在线社交网络上的信息传播过程,作者设计了消息传播模拟框架:
环境建设:
环境的构建涉及到在公共平台上形成一个社会网络,包括用户和用户之间的联系。
社交网络可以表征为一个有向图,其中网络中节点的外向度和深度分别代表他们关注的人数和他们拥有的追随者人数;
该网络中的用户可以大致分为三类:影响力用户、普通用户和低影响力用户
有影响力的用户通常拥有比他们关注的人多得多的追随者。此外,他们还倾向于分享高质量的原创信息;
普通用户通常保持着一个平衡的追随者和追随者比例。此外,相当一部分的普通用户会相互关注,这通常反映了他们在现实生活中的友谊。
相反,低影响力用户表现出有限的追随者,不经常发布消息,并且通常代表消息传播链的端点。
值得注意的是,在这个框架中,排除了社交机器人和僵尸用户的考虑,尽管他们在社交平台上很流行。
用户描述:
除了网络中存在的社会关系之外,每个用户都拥有自己的属性描述。
某些属性是客观和具体的,包括性别、职业和年龄等因素(在短期内表现出最小的波动)。另一方面,其他属性更抽象,包括他们对特定事件的态度和他们的主要情绪状态(更具动态性)。
用户的基本属性、消息内容和消息来源一致地塑造了他们的态度、情感和其他抽象属性。
为每个用户引入一个内存池。鉴于在线公共平台上来自不同用户的大量信息,每天都会出现大量信息。
提出了影响因素的概念: 根据发布时间、内容相关性、消息重要性等参数的加权分数。
Temporal Influence:
信息的近代性在人类记忆中起着重要作用,随着时间的推移,以前的信息会逐渐消失。使用规定的遗忘功能的信息会得到一个时间分数
Content Relevance:
消息内容的相关性是根据用户的个人特征来评估的。
年轻人往往对娱乐相关事件表现出更大的倾向,而中年人对政治事务表现出更高的兴趣。
为了量化相关程度,通过测量用户基本属性与消息内容之间的余弦相似度来获得相关分数。
Message Authenticity:
消息的真实性与其来源密切相关。
消息根据来源进行分类,包括单向关注者传播的消息、共同关注者分享的消息、平台推荐的消息以及用户自己之前发布的消息。根据消息各自的来源给消息分配不同的分数。
更新演变机制:
在社交聚会中,各种公众号和个人用户都会发表与活动相关的帖子,包括新闻报道和个人观点。在遇到这些消息时,关注它们的用户表现出不同的情绪反应。
一些用户甚至会在有争议的问题上表达自己的立场,无论是支持还是反对,随后参与在线活动,如认可,传播和创造原创信息。
使用大型语言模型来复制单个用户,利用他们的配置文件和内存池作为提示来生成认知反应和行为响应。它们的抽象属性和内存池经历更新。当用户的内存池被修改后,这些消息就会传播,并在关注者阅读内容时对他们产生影响。
4.2 Initialization
4.2.1 Social Network Construction
网络构建方式:(节点和边)
利用从真实社交媒体来源获取的数据构建一个网络。在收集社交媒体数据的过程中,严格遵守隐私法规和政策。
利用关键字匹配技术有效地提取与模拟场景相关的帖子。
深入研究作者的身份识别,并将其提取为网络的基础节点。超越个人层面,收集社交连接的用户。为了建立用户之间的连接,如果在提取的用户集中存在相应的追随者,则建立有向边。
为了优化仿真效率,在这项工作中,只关注子图,而不是整个图,因为整个图太大了。在模拟过程中,消息的传播只发生在源节点和相应的目标节点之间。
4.2.2 User Demographics Prediction
重要性:
扩展节点的属性,特别是关注用户人口统计属性,是实现更详尽模拟的关键一步。
通过将有关用户的附加信息整合到系统中,可以更有效地深入研究和审查他们在网络中的行为、互动和影响。
用户统计属性使模型能够捕捉到现实社会网络的异质性和多样性。人口统计属性在塑造个人行为和偏好方面发挥着重要作用,而个人行为和偏好反过来又影响着网络的整体态度动态。、
论文选择了性别、年龄和职业作为主要的人口统计属性:
LLM提供了预测这些人口统计属性的可靠方法。通过使用LLM,可以利用广泛的上下文理解和编码的知识等可用信息(如个人描述和帖子中的内容)推断用户人口统计数据。
使用LLM进行用户人口统计预测:
性别预测:
为了根据个人描述预测用户性别,由于收集到的数据缺乏足够的标签,使用了【论文1,论文2】中发布的公共数据集来提供帮助。
它允许提取大量的标签性别和个人描述关系。在这个数据集中过滤掉超过10个单词的数据,作为groundtruth来调整语言模型。
作者采用ChatGLM作为基础模型,采用P-Tuning-v2方法。向模型提供个人描述作为提示,并让模型确定与给定描述相关的最可能的性别。
年龄预测:
为了利用用户的帖子预测年龄,作者使用Blog Authorship Corpus Dataset数据集建立表达与年龄的关系。
这个数据集提供了相应文本文章的作者年龄标签。随机选取其中的历史博客作为输入添加到提示符中;
然后,年龄可以用作前缀调优的标签。调整后的大型语言模型可用于预测收集的社交媒体数据集中的年龄标签。
职业预测:
只使用预训练的LLM来预测职业。直接将用户的帖子和个人资料描述提供给LLM进行预测。
通过检查这些输入的内容,该模型展示了其理解和推断用户职业的能力,进一步增强了人口统计预测能力。
预测结果评价:
年龄和性别预测分析结果:
4.3情绪和态度模拟
采用马尔可夫链的方法来捕捉用户接收消息所引发的情绪变化的动态过程。
模拟包括3个基本输入:用户人口统计,当前情绪,收到的帖子。
用户人口统计数据作为补充信息,为情境化情绪反应提供参考点。
当前情绪代表用户收到帖子前的情绪状态,收到的帖子作为致动器,提示LLM确定新的情绪状态。
情绪变化:
为了调节情绪状态随时间的减少,作者引入了衰减系数,这是一个控制情绪衰减率的超参数。
假设是,随着时间的推移,情绪会逐渐减少,从而影响情绪模拟过程。
通过提示将这些细节传递给llm, llm负责决定情绪状态是否应该随着收到的帖子而改变。
4.4 Behavior Simulation
4.4.1 Content-generation Behavior
采用了一种利用LLM再现内容创造的动态过程,由用户对特定事件的情绪和态度塑造。
模拟依赖于两个重要的输入:用户档案信息,以及他们当前对事件的情感或态度状态。
每一个生成的内容都是用户内部状态和外部影响的体现,反映了他们独特的视角。
User profile information:
用户配置文件信息可作为llm的参考点,为形成内容响应提供必要的上下文。
当前的情绪或态度状态象征着用户对事件反应时的心态,因此在LLM产生潜在反应中起着至关重要的作用
这种方法反映了现实世界用户根据不同事件形成帖子的方式,使文本生成过程与用户的情感或态度动态保持一致。通过这种方式,作者已经成功地利用LLM以高保真度模拟社交网络上的内容创建过程。
4.4.2 Interaction Behavior
使用大型语言模型来捕捉用户、帖子特征和交互行为之间的复杂关系。
利用LLM模拟真实用户交互行为的能力,除了收到的具体帖子外,还向模型提示有关用户人口统计属性(即性别、年龄和职业)的信息,让LLM像用户一样思考并做出决定。
通过这种方式,使LLM能够预测用户是否倾向于转发消息或发布新内容
4.5 Other Implementation Details
该系统采用了各种技术来利用或调整大型语言模型来进行基于代理的仿真。对于提示驱动的方法,作者使用OpenAI提供的GPT-3.5 API和ChatGLM-6B模型。对于微调方法,作者基于开源的ChatGLM模型进行调优。