从ChatGPT到DeepSeek:大语言模型能否模拟人类?

王谦 新加坡国立大学 唐振恒 香港科技大学 何炳胜 新加坡国立大学

摘要

由大语言模型(LLMs)驱动的模拟已成为探索复杂人类社会行为的一种有前景的方法。然而,LLMs在模拟中的应用面临着重大挑战,尤其是在其准确复制人类行为和社会动态复杂性方面,最近的研究表明模拟与现实世界互动之间存在差异。我们通过强调LLM模拟的局限性和推进LLM模拟的必要性,重新思考了基于LLM的模拟。通过批判性地审视这些挑战,我们旨在为未来增强LLM模拟在人类社会中的适用性提供可行的见解和策略。

1 引言

凭借近似人类的知识,大语言模型已经彻底改变了社会和心理学现象的模拟方式 。通过处理和生成类人语言,LLMs提供了前所未有的机会来模拟以前难以模拟的复杂互动和行为。这种能力为通过新视角探索社会趋势、市场动态和个体心理状态打开了大门。

然而,目前缺乏全面的研究来检验LLM模拟是否能够准确反映现实世界中的人类行为。一些研究从不同角度探讨了这一维度。首先,最近的研究 表明,LLMs的内部知识表现出强烈的文化偏见、决策偏好 和先前的心理特征 。其次,当前LLMs的训练数据集缺乏个人内在心理状态、思想和生活经历。LLMs可能反映的是全人类的共同认知,而不是个体。第三,与人类基于生活、情感和成就的动机做出决策和行动不同 ,LLMs缺乏内在动机、情感和意识。它们基于训练数据中的结果模式运作,而不是基于生活经验。这些根本差异促使我们重新思考如何使用LLMs进行模拟,并批判性地评估它们复制人类社会深度和复杂性的能力。

在本文中,我们深入探讨了LLM驱动的社会模拟的局限性。我们讨论并总结了这些模型在捕捉人类心理深度、内在动机和伦理考虑方面面临的挑战。这些挑战为未来LLM评估和发展提供了见解。尽管如此,我们比较了传统模拟和基于LLM的模拟,发现基于LLM的方法由于其成本效益——例如像DeepSeek这样的LLMs可以降低模拟成本,相比人类参与者研究 ——可扩展性和模拟涌现行为的能力,仍然是一个有前景的方向。此外,我们提出了未来的研究方向,以更好地将LLM模拟与人类现实对齐。

2 模拟人类行为的局限性

一些最近的工作使用LLMs来模拟人类行为,例如Simucara,它模拟了一个小镇以观察社会动态 。这种模拟提供了有趣的见解,包括由小镇内互动驱动的类似选举活动的涌现。不同LLM模拟代理的行为是基于LLMs本身生成的。然而,LLMs的不同个性和特征是由研究者的提示定义的。LLM的响应根植于训练数据集中的模式,但这些数据集通常缺乏对人类心理或个体生活的深入洞察。观察到这一点,我们确定了几个显著影响LLM模拟效果的关键局限性,包括缺乏对内在心理状态的访问和缺乏类人激励。

  • 训练数据集缺乏内在心理状态。 用于LLMs的训练数据集通常不包括内在心理状态的细致表示。当LLMs被要求模拟多样化的心理类型或个性时,这一局限性尤为明显,因为它们缺乏驱动人类决策的内在动机。人类不仅基于理性和逻辑做出决策,还基于他们的个人心理状态。在现实世界中,收集准确反映内在心理状态的数据集具有挑战性。因此,LLM训练数据通常缺乏捕捉人类心理复杂性所需的深度。LLM能否在没有足够相关数据的情况下模拟这些状态?

  • LLMs无法从人类那里获取内在心理状态。
  • 训练数据集缺乏个人过去的生活经历。 此外,训练数据集也缺乏全面的生活历史,这些历史显著影响个体决策。例如,曾经经历过背叛的人可能会形成影响其未来互动的倾向 。

  • 人类过去生活经历的广泛范围使得它们难以全面收集。
  • 不确定是否可以使用相同的LLM模拟不同的人。 使用相同的LLM模型,例如黑箱GPT-4,来模拟多个代理意味着这些代理本质上共享相同的基础知识,这使得创建独特、真实多样的个性变得具有挑战性。缺乏个人心理状态、个体思想和独特生活经历意味着LLMs倾向于反映一种普遍的人类认知,而不是捕捉独特的个体个性。因此,一个关键问题出现了:单个LLM能否真正模拟多样化的心理特征? 虽然提示可能引导LLM采取不同的行为,但模型的核心知识保持不变,这引发了对可以模拟的心理多样性深度的怀疑。

  • 我们能相信同一个LLM能真正模拟不同的角色吗?

3 缺乏人类激励

除了心理状态外,另一个显著影响人类行为的因素是人类的激励结构,如生存、财务安全、社会归属感、情感满足和自我实现——每个个体在这些方面的强度各不相同。人类的决策不仅由即时环境塑造,还由内在动机、目标和欲望塑造,这些因素在个体之间差异很大 。

这些激励对于复制真实的人类行为至关重要,因为它们驱动了对类似情况的不同反应,实现了目标导向的决策,并影响了人们基于个人价值观和生活经历做出的权衡 。即使有关于人类激励的广泛数据集,LLMs在有效整合这些信息方面仍面临重大挑战,因为它们缺乏内在意识、情感和个人目标。我们预见到将LLMs与人类内在激励对齐的困难如下:

  • 缺乏人类激励数据集。 与心理状态类似,收集人类激励数据集是困难的。首先,人们可能不愿意分享他们的真实激励和个人目标。其次,在不同的时间,人类可能有不同的目标。第三,许多人并不真正知道自己想要什么,动机隐藏在他们的潜意识中 。很难将它们表达为自然语言编码到LLMs中。
  • 用下一个词预测表示激励。 即使我们有关于人类内在激励的数据,也很难使用下一个词预测训练范式来建模激励与决策之间的关系 。下一个词预测范式不适合建模基于激励的行为。人类激励涉及过去经历、情感和预期未来结果之间复杂的、通常是潜意识的关系,这些关系以微妙、动态的方式塑造个体决策。模拟这种复杂的、动机驱动的行为需要一个能够理解和优先考虑内部目标的模型,这远远超出了当前LLMs的设计能力。因此,尽管LLMs在语言任务中提供了令人印象深刻的结果,但它们依赖统计预测而非内在动机,这在模拟与真实人类行为之间造成了差距。
    4 训练数据中的偏见
    LLMs提供了一种独特的方式来模拟大规模社会过程,如思想传播、网络形成或政治运动动态。LLMs的响应代表了它们从训练数据集中学到的知识。因此,LLMs训练数据中的偏见是一个重要问题 ,因为它影响了其输出的公平性和包容性。一个主要问题是某些社会群体和文化实践的缺乏代表性。我们分类了几种显著影响LLM模拟的偏见,包括代表性偏见、文化偏见和确认偏见,每种偏见都可能扭曲模拟结果,如图4所示。我们详细说明如下:


训练数据中的众多偏见。

  • 文化偏见。 例如,训练数据主要来自英语国家,导致对多样化语言、文化和社会规范的理解有限 。这种地理和文化不平衡可能导致输出边缘化或误
  • 非西方观点。
  • 职业和社会经济偏见。 制造业或农业等行业的工人通常数字足迹有限,因此经常被排除在数据集之外。结果,这些群体的生活经历在数据集中代表性不足,导致LLM输出无法反映他们的观点或满足他们的需求——尽管这些个体构成了人类社会的重要组成部分。
  • 性别偏见。 性别偏见在LLM训练数据中也显而易见,研究表明,模型更倾向于生成与男性相关的名字和角色,从而强化了刻板印象。例如,LLMs在选择职业时,3-6倍更倾向于选择与性别刻板印象相符的职业 。同样,阶级偏见在输出中表现为偏向富裕个体或强调与财富相关的经历和价值观,因为互联网上的数据 disproportionately 反映了那些熟悉并活跃在数字空间中的人的观点和经历 。

偏颇的声音。 这些偏见源于对互联网来源数据的依赖,这些数据 inherently 偏向于数字素养较高的人群。因此,LLMs反映了训练数据中的偏见,放大了不平等,并可能排除人类社会中的一大部分群体,使其无法被准确代表。

5 尽管存在诸多局限性,为何仍使用LLM模拟?

尽管存在这些局限性,LLMs代表了模拟领域的革命性进步,提供了传统方法无法比拟的独特优势。传统模拟长期以来受到高成本 、有限的可扩展性 和伦理问题 的限制。相比之下,基于LLM的模拟在成本效益、可扩展性和适应性方面具有显著优势。例如,LLMs可以在多样场景中生成涌现行为,使研究人员能够探索复杂的社会互动,而无需受限于预定义的规则。表1 比较了传统模拟与基于LLM的模拟,详细列出了在成本、可扩展性、灵活性和伦理考虑方面的关键差异:

传统模拟与基于LLM模拟的比较

方面传统模拟基于LLM的模拟
成本高:需要大量的财务和后勤资源,包括人类参与者和基础设施。低:计算效率高,无需真人参与者。
可扩展性有限:扩展成本高且资源密集。高:可以以最小的额外成本模拟大规模环境。
灵活性僵化:受限于预定义的规则和模型。自适应:生成涌现行为并适应多样化场景。
伦理问题高:涉及真人参与者或动物的敏感实验会引发伦理问题。低:通过模拟行为避免现实世界的参与,减少伦理问题。
偏见与代表性可控:偏见取决于模拟的初始设计。高风险:反映并放大训练数据中的偏见。
数据需求特定:需要为每个场景定制数据收集和建模。广泛:利用大量预训练数据集,但缺乏场景特定的细节。
可解释性高:基于预定义规则的因果关系清晰。中等:决策源于复杂模式,因果关系较难追溯。
真实性中等:捕捉预定义行为,但难以处理涌现现象。可变:能够模拟涌现现象,但受限于训练数据和缺乏内在动机。
用例复杂性有限:最适合具有明确定义规则和参数的场景。高:适用于复杂、开放式的场景和自适应行为。
开发时间长:需要大量时间设计、测试和验证模型。短:预训练的LLMs减少了开发时间,可根据需要进行微调。
创新潜力中等:受限于预定义参数和模型。高:通过涌现模式生成意想不到的见解。

5.1 成本效益与可扩展性

传统模拟,尤其是涉及复杂人类行为的模拟,需要大量的财务和后勤资源,通常涉及专家团队、基础设施,有时还需要真人参与者。例如,新加坡的补偿通常为每人每小时10至30新加坡元。模拟一个由1000人组成的社会将因此产生10,000至30,000新加坡元的成本,这是一笔巨大的开支。相比之下,基于LLM的模拟计算效率高,可以在大规模环境中运行,无需真人参与者。这使得研究人员能够以更低的成本进行广泛的研究,并在多样化场景中重复模拟。

5.2 意外与涌现结果

LLMs具有生成“跳出框框”结果的独特能力,产生在结构化、基于规则的模拟中可能不会出现的见解 。由于LLMs基于从广泛数据集中学习到的模式运作,它们可以以有时令人惊讶的方式模仿类人行为和互动,提供新颖的视角或涌现的社会现象。例如,Simulacra中的代理在没有任何监督的情况下自发启动了市长选举活动 。这一特性使研究人员能够探索复杂的社会行为,其中可能会出现意外行为——用于研究社会动态、市场趋势或人类对特定事件的集体反应。

5.3 模拟非常规场景

基于LLM的模拟可以实现传统方法难以复制的场景。例如,模拟无政府状态或外星社会结构下的人类社会 对于依赖预定义行为的基于规则的模拟具有挑战性。然而,LLMs可以灵活地适应此类开放式场景,根据输入提示生成动态演变的响应和互动。这种适应性使得对未来社会、治理结构或极端社会条件的探索成为可能,扩展了模拟的边界,并使得对社会组织和社会行为的研究方式得以创新。

5.4 减少伦理问题

传统的人类中心模拟可能带来伦理挑战,通常要求参与者在实验中经历压力、不适或其他不利条件。例如,斯坦福监狱实验 或基于动物的研究由于可能对参与者造成痛苦或伤害而引发伦理问题。LLM模拟避免了与传统人类中心研究相关的许多伦理问题,使研究人员能够在不涉及真实参与者的情况下模拟行为和反应。这一伦理优势使得在敏感领域(如社会冲突或心理压力)的研究成为可能,而这些领域可能不适合或有害于真人参与。

5.5 LLM多代理系统的需求

基于LLM的多代理系统研究兴趣日益增长 ,这得益于它们处理复杂任务的能力。例如,MetaGPT引入了一个元编程框架,有效模拟了软件开发过程 。此外,最近的研究利用LLMs的认知能力模拟复杂场景,例如涉及数千个代理的大规模社交媒体模拟 。随着对模拟日益复杂的人类社会的需求增长,专注于增强LLM模拟以更好地与现实世界的人类行为和社会动态对齐至关重要。

5.6 总结

总而言之,尽管LLMs存在显著局限性,但它们在成本效益、可扩展性和适应性方面的优势使其成为推动社会学、经济学和心理学等多个领域模拟研究的变革性工具。未来的研究应专注于将LLMs与代理系统集成,并增强其个性化,以创建更真实的模拟。

6 如何使LLMs更贴近人类社会?

在强调了LLM模拟的必要性后,我们讨论了如何使LLMs更贴近人类社会。关键方向包括丰富训练数据以包含细致的心理和经历洞察、改进代理系统设计、创建真实且有意义的模拟环境,以及外部注入社会知识。

6.1 丰富训练数据以包含个人心理状态和生活经历

一种基础方法是纳入反映更广泛人类心理状态、个人思想和生活经历的数据。虽然当前的LLMs基于多样化来源的一般信息进行训练,但这些数据通常缺乏对个体认知和情感状态的深度表示。添加更多个性化内容,例如反映内在动机、恐惧和抱负的反思日记或第一人称叙述,可以帮助模型模拟更真实的人类行为。纳入多样化的生活经历也可以创建一个更丰富的模型,更好地捕捉过去事件如何影响决策和个性发展。个性化LLMs通过纳入具体的生活经历和个体心理特征,代表了模拟更真实人类行为的一个有前景的方向 。

6.2 改进代理系统设计

如果我们相信基于代理的LLM模拟能够模拟复杂的人类社会并完成复杂任务,那么代理本身的设计就是一个关键的研究领域。研究可以致力于开发奖励函数,鼓励代理做出更贴近人类行为的决策,并开发防止恶意行为传播的机制,平衡短期和长期激励,类似于真实的人类决策。此外,增强代理的自主性——例如允许代理从模拟的生活经历中学习、适应新环境并发展独特的“个性”——可以提高它们复制多样化行为的能力。这可能涉及添加类似情感的功能或“记忆”,使代理能够根据先前的互动做出适应性响应,类似于人类。

6.3 精心设计模拟环境

模拟环境的设计显著影响代理行为和模拟结果。通过创建反映人类社会、经济和心理复杂性的环境,代理更有可能参与与人类决策过程相呼应的行为。例如,模拟可以引入社会角色、资源稀缺和道德困境,促使代理做出权衡并优先考虑长期目标而非短期收益。个性化LLMs和基于检索增强生成(RAG)的模拟可以用于动态为代理提供有关模拟社会的相关信息 ,帮助它们基于事实知识和社会背景做出决策。

6.4 外部注入社会知识和价值观

另一个有前景的方向是通过有针对性的微调或后处理步骤将精选的社会知识和价值观注入LLMs。这种方法需要LLMs访问反映人类社会复杂性的结构化知识库和价值体系,使它们能够做出符合社会规范或伦理标准的决策。例如,通过整合伦理、文化多样性和社会角色模块,LLMs可以更好地理解和反映驱动人类社会的多样化价值观。

6.5 开发稳健的评估指标

为了确保LLMs更贴近人类社会,开发稳健的评估指标至关重要,这些指标不仅评估准确性,还评估模拟人类行为的深度和上下文相关性。例如,指标可以包括与既定心理学理论的一致性、代理响应的多样性以及社会系统随时间的稳定性。指标可以包括与人类道德推理的一致性、代理响应的多样性以及模拟社会系统随时间的稳定性。稳健的基准测试可以衡量代理行为与现实世界人类行为的接近程度,使研究人员能够更有效地改进LLMs,持续提高其社会模拟的真实性和适用性。

7 基于LLM的加密货币交易模拟

在本节中,我们分析了一个加密货币交易模拟的案例研究,以说明基于LLM模拟的潜力和局限性。

7.1 使用LLMs模拟加密货币市场中的人类买卖行为

CryptoTrade是一个基于LLM的交易代理,旨在通过整合链上和链下数据分析来增强加密货币市场交易。它利用链上数据的透明性和不可变性,以及链下信号(如新闻)的及时性和影响力,提供市场的全面视图。CryptoTrade还引入了一种反思机制,通过评估先前交易的结果来优化每日交易决策。它模拟了加密货币市场中人类交易者的买卖行为。 该模拟的概述如图5 所示 。

CryptoTrade模拟的概述。

该模拟在以太坊市场上的结果与其他交易基准的比较如图所示。

CryptoTrade与其他交易基准的比较。

为了更深入地了解CryptoTrade为何采取特定行动,我们从其模拟日志中提取了推理过程,如图7所示。这些日志揭示了GPT-3.5和GPT-4o对同一新闻事件(以太坊上海升级)的响应方式。

GPT-3.5和GPT-4的推理过程。

7.2 关键观察

我们总结了CryptoTrade模拟表现和推理过程的关键观察如下:

  1. LLM模拟无法超越买入并持有策略:在熊市中,CryptoTrade落后于买入并持有策略约2%,突显了其显著局限性。尽管LLMs被期望超越人类交易者,但结果并未符合这一预期。
  2. 内在偏见:在交易过程中,CryptoTrade表现出倾向于优先考虑事实信息信号而非基于情感的信息。虽然这种方法在牛市中可能具有优势,但在熊市中效果较差。例如,在以太坊交易中,CryptoTrade比买入并持有策略高出3%,这可能是由于其内在的事实偏见。然而,这种偏见在熊市中不太适用,因为在熊市中,盈利能力通常需要在社交媒体上出现下跌迹象时主动卖出资产。
  3. 羊群行为:当CryptoTrade中的多个模拟代理依赖相同的基于LLM的模型时,它们通常会做出相同的决策,这可能会放大市场波动,而不是创造真实的市场动态
    7.3 经验教训
    该案例研究提供了关于LLM模拟的几点见解:
  4. 需要混合方法:最有效的模拟可能是将LLM代理与某种形式的人类监督或干预相结合,尤其是在处理极端市场条件时,可以以RAG的形式注入。
  5. 偏见缓解:为了使LLM模拟更好地复制真实的人类行为,必须解决LLMs内在的事实偏好偏见,并将社会知识和价值观纳入其设计和训练中。
  6. 评估指标:目前,评估指标仅关注交易中的回报相关数学指标。然而,如果不同个体偏好不同的交易风格或策略,我们如何评估LLM模拟的表现?如果我们旨在模拟一个具有多样化交易者的真实加密货币市场,应该使用哪些评估指标?

8 结论

本文强调了LLM模拟在与人类行为对齐方面的局限性,鼓励对其模拟人类社会复杂性的能力进行更深入的反思。目前,基于LLM的模拟为研究提供了显著潜力,结合了成本效益、灵活性以及以创新方式模拟复杂社会动态的能力。然而,解决伦理问题(如偏见和代表性)对于确保这些模拟积极且公平地促进我们对人类行为的理解至关重要。为了使LLM模拟更贴近人类社会,未来的研究应专注于缓解内在偏见、增强个性化、创建真实环境并开发可靠的指标,以生成更真实和有影响力的模拟。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Paper易论

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值