摘要
大型语言模型(LLMs)已被广泛用作代理来完成不同的任务,如个人助理或活动策划。虽然大多数工作集中在代理之间的合作和协作上,但很少有工作探索竞争,这是推动社会和经济发展的重要机制。在本文中,我们试图研究基于LLM的代理之间的竞争动态。我们首先提出了一个研究代理之间竞争的通用框架。然后,我们使用GPT-4实现了一个实际的竞争环境,模拟了一个虚拟小镇,其中包括餐厅代理和顾客代理。具体来说,餐厅代理相互竞争以吸引更多顾客,竞争鼓励它们进行转型,如培养新的运营策略。模拟实验在微观和宏观层面揭示了几个有趣的发现,这些发现与现有的市场和社会学理论非常吻合。我们希望该框架和环境可以成为一个有前途的测试平台,用于研究促进对社会理解的竞争。代码可在以下网址获取:https://github.com/microsoft/competeai。
1. Introduction
竞争是塑造人类社会的关键驱动力,影响着经济、社会结构和技术发展等各个领域。理解这些竞争机制对于理解社会如何运作至关重要。传统的竞争研究主要基于实证研究(Phan et al., 2019; Markussen et al., 2014)。由于数据的可访问性限制,这种方法无法在微观层面研究竞争,导致理解有限。基于代理的建模(ABM)通过模拟代理的行动和互动克服了这一限制。从基于规则的(Epstein and Axtell, 1996; Elliott and Kiel, 2002)到数据驱动的(Sajjad et al., 2016),以及基于机器学习的代理(Rand and Stummer, 2021),研究人员致力于使代理显得更加真实。然而,这些代理还无法模拟复杂的人类行为,导致模拟过程的真实性有限。
图1。我们的环境研究动态竞争,与既定的社会学和经济学理论一致。
最近,大型语言模型(LLMs)(OpenAI, 2023; Touvron et al., 2023; Zeng et al., 2023)的出现为社会模拟提供了一种替代方案,通过创建自主代理(Hardy et al., 2023; Jansen et al., 2023; Argyle et al., 2023; Ziems et al., 2023; Li et al., 2023b)。新兴的工作探索了这些基于LLM的代理方法,模拟了各种社会环境(Park et al., 2023; Gao et al., 2023; Törnberg et al., 2023; Liu et al., 2023; Akata et al., 2023),主要关注代理的合作和协作行为,如软件工程和游戏(Wu et al., 2023; Xi et al., 2023; Abdelnabi et al., 2023)。然而,研究竞争概念的工作很少。Han et al. (2023)研究了企业竞争和勾结,但只关注价格趋势。迄今为止,复杂和现实的竞争模拟和研究仍然缺失,这对于全面理解竞争动态至关重要。
在本文中,我们试图通过研究基于LLM的代理之间的竞争来填补这一研究空白。我们首先介绍了一个全面的研究代理竞争行为的框架。该框架提供了一种结构化和形式化的方法,适用于各种场景。在框架的指导下,我们开发了一个竞争性的实际环境(图1),利用GPT4(OpenAI, 2023)模拟一个虚拟小镇,其中居住着两种类型的代理:餐厅和顾客代理。具体来说,餐厅代理负责管理餐厅并向顾客销售食物。顾客代理扮演裁判的角色,通过选择餐厅并提供与餐厅互动的体验反馈。顾客拥有不同的特征,如收入、口味、健康和饮食限制,并且可以是个人或团体。在这个模拟环境中,餐厅代理相互竞争,努力吸引和留住顾客。这种竞争促使餐厅代理不断进化和适应。餐厅代理开发创新策略以超越竞争对手。
我们在运行模拟多次后进行了微观和宏观层面的分析。我们的主要发现是:
• 基于LLM的代理的情境感知:我们展示了LLMs能够准确感知竞争情境并全面分析信息,为有效的模拟实验奠定了基础。
• 市场策略:我们环境中观察到的行为符合几种经典的社会学和经济学理论,包括差异化(Porter, 1997)、模仿(Lieberman and Asaba, 2006)、顾客导向(Zeithaml et al., 2018)和社会学习(Bandura and Walters, 1977)。
• 顾客决策:我们观察到顾客决策通常受到多种因素的影响,并且因人而异,与消费者行为理论(Peter and Olson, 2010)相一致。同时,个人和团体用餐的决策过程有所不同。
• 马太效应:我们的研究表明,市场竞争中存在马太效应(Rigney, 2010),表现为一种自我强化的循环,受欢迎的餐厅获得更多人气,而知名度较低的餐厅持续受到较少关注。
• 顾客分组减少赢者通吃:我们证明了分组顾客可以减少由马太效应引起的“赢者通吃”现象(Leadley et al., 2014)。
• 竞争提高产品质量:我们的研究表明,代理之间的竞争导致产品质量的提高,这与现有研究(Lieberman and Asaba, 2006; Garvin, 1988)相一致。
本文的贡献有三方面:
- 基于LLM的代理的竞争框架。我们开创了一个专门设计用于分析基于LLM的代理之间竞争互动的综合框架。
- 模拟竞争环境的实现。我们开发了一个专门的竞争环境,允许对竞争动态进行结构化和复杂的分析。
- 对竞争动态的新见解。我们从基于LLM的代理中观察到各种竞争行为,这些行为与现有的社会学和经济学理论相一致,为未来的研究和设计提供了启示。
2. 构建竞争环境
2.1 研究竞争的通用框架
竞争意味着人们需要为有限的资源竞争,以使自己在环境中蓬勃发展。我们首先提出了一个通用框架来进行此类研究。如图2所示,我们的框架称为“CompeteAI”,由四个主要部分组成。
图2. 研究AI代理之间竞争动态的通用框架。首先,为LLM选择一个适当的环境。接下来,在环境中定义每个元素,如竞争者和优化方法,以完成设置。最后,运行模拟并分析结果。
首先,在环境选择中,我们确定了一个适当的竞争环境作为研究对象——这可以是竞争性游戏、公司-客户互动或其他竞赛等主要研究环境。其次,在环境设置中,我们构建所选环境,利用现有的代理框架进行适应,例如CAMEL(Li et al., 2023a)或AutoGen(Wu et al., 2023)。第三,在模拟执行中,我们在建立的环境中运行一系列实验,以捕捉不同代理之间的互动过程。最后,在分析中,我们观察、分析和总结实验结果中的行为,以得出见解。
值得注意的是,最重要的组成部分是创建一个竞争环境,设计者应仔细考虑竞争者、裁判以及他们之间的互动(例如,竞争者为裁判提供服务,裁判向竞争者提供反馈)。约束条件对于这一组成部分的成功至关重要,例如竞争者的资源约束和服务约束,或裁判的资金约束和购买约束。这些约束的设计灵感来自于资源依赖理论(Hillman et al., 2009),该理论认为对资源的竞争可以影响组织的行为、与其他组织的关系以及生存和成功的策略。这些组成部分的设计高度依赖于竞争情境。设计者还应注意它们的互动、迭代(因为大多数竞赛需要反馈和重新运行)以及结果管理。我们的框架作为一个理想的测试平台,用于创建多样化的竞争环境,以研究代理的行为。各组成部分的详细介绍见附录B.1。
2.2. 环境概述
基于该框架,我们将环境实现为一个小镇,其中包含两种实体:2家餐厅和50名顾客。顾客可以是个人或团体(例如家庭、情侣或同事),详情见附录C.2。我们假设每个顾客不会做饭,必须去其中一家餐厅用餐。为了简化观察,我们假设每个顾客每天应该在一家餐厅吃一次饭。为了盈利,餐厅必须竞争以吸引更多顾客。在本文中,餐厅和顾客都由基于LLM的代理驱动,即GPT-4(0613)(OpenAI, 2023)。具体来说,每家餐厅由一个代理管理,每天向顾客提供食物。餐厅通过几个预定义的操作来运营,例如“修改菜单”、“管理厨师”和“做广告”,以全天为顾客服务。然后,每个顾客从每家餐厅接收信息并进行选择。用餐后,顾客留下评论作为对餐厅的反馈。我们设置了15天的模拟运行,如果其中一家餐厅决定退出比赛,模拟将结束。
在使这个模拟实际可行的过程中,存在三个挑战。首先,大多数基于LLM的代理的输入和输出都是文本形式的。使它们与真实环境互动并非易事。因此,餐厅和顾客需要真实系统来模拟可能的操作。其次,代理应足够多样化以触发更多的竞争行为。在现实世界中,用户有不同的偏好。一些顾客可能更喜欢素食,而另一些则更喜欢快餐。第三,验证是非同小可的。必须严格评估这些模拟中代理行为与现实世界中人类行为的对应程度。这确保了模拟不仅在内部一致,而且在外部有效。
在下文中,我们将介绍如何在实现中克服这些挑战。
2.3. 竞争者
在本研究中,我们使用代理作为餐厅经理。现实世界中的餐厅涉及复杂的运营,如招聘员工、设计菜单和广告——这些任务超出了缺乏现实世界感知能力的基于文本的LLM的范围(Dafoe et al., 2020)。为了解决这个问题,我们使用精心设计的提示来为代理设定场景,并构建了一个全面的餐厅管理系统,通过API访问(详见表3),使代理能够更有效地管理餐厅。
为了便于实施和结果分析,我们将竞争环境限制为两家餐厅。然而,我们的框架可以很容易地用于更多的餐厅。餐厅代理的过程描述如下:每个代理都有一定数量的启动资金用于雇佣厨师、制作菜单、做广告和其他事情。首先,每个代理接收最近的日志,记录收入、支出和顾客流量的历史,以及前一天的评论。还提供了关于竞争对手(即另一家餐厅)前一天的信息,包括菜单、顾客流量和评论。然后,代理分析所有信息,设计或修订第二天的策略和计划,例如雇佣新厨师或更新菜单。然后,代理在提示的指导下与餐厅管理系统互动,记录指定的互动方法。完成这些操作后,代理总结并将其存储在记忆中,以备未来的规划。餐厅的主要活动见附录C.1。
2.4. 顾客
顾客在我们的环境中充当裁判,因此包含多样化的顾客以触发更多发现非常重要。为此,我们提出了两种变体:特征和关系。特征包括几个因素:收入、口味、健康状况(例如糖尿病)和饮食限制(例如素食者)。所有特征信息通过提示设置并输入系统,存储为永恒特征。在关系方面,我们设置了四种常见类型:家庭、同事、情侣和朋友。然后,根据他们的特征,一些顾客被分成包含2至4人的小组。每个小组成员被分配一个角色(例如家庭中的母亲),并描述与其他人的关系。同一类型的群体之间也存在差异。例如,一些家庭关系和谐,而另一些则紧张。总之,我们设置了10个个人顾客、4个家庭、4个同事、3对情侣和4个朋友。所有顾客的完整信息见附录C.2。
每个顾客的过程如下。每天,顾客会看到两家餐厅的信息,包括餐厅名称、顾客评分、广告、菜单和评论。每个个人顾客必须根据自己的特征、经验和餐厅提供的信息选择一家餐厅。小组成员首先讨论去哪里。在讨论过程中,每个成员可以表达他们的需求和想法,然后达成多数决定。在决策阶段,顾客应提供理由,以便稍后更好地分析他们的选择。然后,餐厅系统中保存的菜品评分会发送给顾客。根据菜品评分和其他信息,每个顾客表达感受,这将成为用餐体验。一些顾客会留下评论,包括姓名、日期、评分和内容(在小组中,所有评论将汇总为一个统一的评论)。随后,这些评论被存储并显示给其他顾客。
2.5. 评估菜品质量
在我们的竞争环境中,菜品质量在塑造整体服务质量方面起着关键作用。菜品质量与菜品价格、成本价和厨师水平相关。为了评估菜品质量,我们制定了几个关键假设来支持我们的评估:
1)菜品的口味与厨师的技能水平呈正相关,而技能水平与他们的薪水挂钩。
2)菜品的质量和口味与原始价格和销售价格都有关。
基于这些假设,我们引入了一个经验机制来评估每道菜的评分s:
s = 0.5 × c p + 0.5 × f 5000 s = 0.5 \times \frac{c}{p} + 0.5 \times \frac{f}{5000} s=0.5×pc+0.5×5000f
其中c是成本,p是价格,f是厨师的薪水。
3. 结果与分析
由于模拟的高成本,我们分别对个人顾客和团体顾客进行了9次和6次实验。我们的分析包括两个视角:微观层面和宏观层面分析。首先,在微观层面,我们深入研究代理与模拟环境之间的互动。在这里,我们的重点是评估他们在感知和行动方面的基本能力,以及观察他们的行为。其次,在宏观层面,我们考察动态过程,密切关注系统的演变,识别这种演变中的模式。我们还通过评估最终结果来分析模拟的结果。在这两个视角中,我们不仅将观察结果与社会科学中的既定理论相一致,还提出了有趣的发现,为未来的研究提供了有希望的方向。
3.1. 微观层面分析:情境感知
感知使代理能够持续收集和解释数据,这对于理解周围环境、做出明智决策和适应动态条件至关重要。在观察代理如何感知和分析环境后,我们发现代理以“由浅入深”的方式分析场景。例如,他们依次分析顾客流量趋势、菜品反馈和竞争对手行动。然后,他们深入分析策略有效性和市场定位等因素。我们展示了一个餐厅的案例研究来支持这一发现:
通过这个例子,我们发现代理能够分析观察到的信息,验证策略的正确性,并相应地进行调整。总之,代理有效地从基本数据分析过渡到对其表现和竞争地位的全面评估,展示了基于对顾客偏好和市场动态的详细理解来适应和优化策略的能力。
3.2. 微观层面分析:市场策略
然后,我们关注代理采取的策略,这是决定哪个竞争者能够胜出的关键因素。我们发现,我们环境中的代理遵循一些经典的市场策略,包括差异化、模仿、顾客导向和社会学习。
差异化。差异化是一种通用策略,使竞争者能够占据独特的市场地位(Porter, 1997)。差异化的方法可以有很多形式:设计品牌形象、顾客服务或其他维度。这些方法也可以在我们的环境中观察到。以下是一个片段,显示一个竞争者试图专注于特色菜品以建立自己的品牌:
模仿。模仿也是一种经典策略,通过积极观察和适应竞争对手的策略,以保持竞争均势或限制市场竞争中的对抗(Lieberman and Asaba, 2006)。以下是另一个片段,显示另一个竞争者如何发现其竞争对手的优势并决定模仿。
顾客导向。竞争者发现并迎合顾客需求,以帮助他们在竞争中获得优势(Zeithaml et al., 2018)。那些优先考虑顾客洞察的竞争者更有能力在竞争中适应、创新和蓬勃发展。表1显示了针对不同顾客需求的代理响应。例如,糖尿病患者寻求低糖菜品,而海鲜爱好者则更喜欢海鲜菜品。这些需求存在于评论中,然后被代理接收,以做出一些安排来满足。值得注意的是,竞争者不仅能识别个人顾客需求,还能评估顾客因素的趋势(例如,健康护理),从而相应地进行调整。
3.3. 微观层面分析:顾客决策
顾客的决策在竞争中起着关键作用。在我们的分析中,顾客偏好的原因已被分类和量化,揭示出决策往往受到多种因素的影响。这一观察与消费者行为理论(Peter and Olson, 2010)相一致。首先,我们总结了不同顾客的原因,并将它们归类为几个主要主题。例如,饮食限制和口味偏好归类为“满足核心需求”。基于高评分或正面评论的选择被归类为“考虑餐厅的声誉”。基于先前经验的选择被视为“品牌忠诚度”。
基于这种分类,我们统计了所有实验中顾客决策的原因。我们随机选择了3名单身顾客和4个小组进行展示。完整信息见附录C.2。如图3所示,很明显,每个个人顾客或小组在做出决策时考虑了多个因素,并且情况因人而异。此外,一个共同的因素是“需求的满足”对所有顾客都占有重要比重。此外,我们可以观察到个人顾客和小组之间的差异。对于个人顾客来说,餐厅的声誉是一个关键因素(平均29.42),而探索新事物的想法很少出现(平均7.18)。相比之下,小组对新菜品更加开放(平均14.93),并且他们对餐厅声誉的考虑较少(平均10.71)。这些差异的影响将在3.4.4中进一步讨论。
图 3. 客户决策原因的分布。客户在做出决定时会考虑多种因素,而且情况因人而异。此外,群体更倾向于探索新事物,而个人客户则更看重声誉。
3.4.宏观分析
我们的宏观分析如下:战略动态(§3.4.1)、马太效应(§3.4.2)、赢家通吃(§3.4.3)和产品质量(§3.4.4).
3.4.1. 策略动态
我们已经观察到复杂的策略动态,这指的是公司之间为竞争优势而进行的一系列动态互动(Chen and Miller, 2012),在竞争中显现出来。这些动态是由差异化与模仿行为的相互作用驱动的。
总体发现:如图4所示,在第2天,R1首先提出在菜品中使用本地食材,以吸引注重健康的顾客。在接下来的两天里,这一卖点帮助R1吸引了大量顾客。意识到这些卖点的巨大成功,R2在第4天更新了一些以本地食材为特色的菜品,并在第5天进一步推出了“星条旗融合碗”,以支持顾客的定制服务。随后,R1增加了“美国融合碗”以与R2对标。此后,两个代理继续寻找新的卖点以创造差异化,同时模仿对手的良好卖点。
核心表现:竞争者往往依靠差异化来赢得优势。然而,风险在于它很容易被竞争对手模仿,从而减少差异化(Porter, 1997)。因此,优势通常只能维持有限的时间,竞争者需要不断差异化以获得竞争优势。
动态平衡:如果两家餐厅共享相同的设置(菜系类型、初始资金),他们的菜单自然会趋向相似。然而,为了差异化,竞争者在菜单中引入了新元素,减少了菜单之间的相似性,而对手的模仿则增加了相似性,最终导致动态平衡。如图5(a)所示,我们计算了所有实验中每天两家餐厅菜单之间的相似性,然后对每天的相似性进行平均。我们发现菜单的相似性保持在36%左右。
图 4. 竞争动态的案例研究。餐厅之间的模仿和差异化创造了一种动态竞争,最终保持动态平衡。
3.4.2. 马太效应
我们观察到一个类似于马太效应(Matthew Effect)的现象(Rigney, 2010),即具有初始竞争优势的实体继续积累利益,使其他实体处于持续追赶的状态,导致不平等的增长和机会。这一效应在各个领域中得到广泛认可,包括教育(Walberg and Tsai, 1983)和科学资助(Bol et al., 2018)。下面,我们将详细阐述我们的发现如何为基于LLM的代理在餐厅顾客流量和反馈机制动态中的马太效应表现提供实际见解。
总体发现:如图5(b)所示,在第1天,大多数顾客选择R1,因为其价格实惠、菜单多样性等因素,以及R1菜品的高质量给他们带来了满意的体验。因此,R1收到了积极的顾客评论和高顾客评分(平均7.2)。相比之下,R2的顾客较少,这意味着评论较少。更糟糕的是,顾客评论褒贬不一,由于菜品质量,顾客评分(平均6.0)低于R1。在第2天,对于R1来说,更高的评分、更多的正面评论和修订的菜单吸引了新顾客,并鼓励现有顾客留下。这种模式每天持续,加剧了R2的情况。
核心表现:R1的初始成功通过正反馈循环强化了其优势:更多的评论使R1能够获得更多的反馈,从而进行更好的调整。此外,更高的顾客评分和更多的正面评论帮助R1在顾客中建立了良好的声誉。这两者帮助R1吸引了更多的顾客。相反,由于顾客较少,R2收到的反馈有限。此外,R2所做的任何调整可能由于顾客基数小而不会立即产生明显效果。R2难以打破这个循环,突显了增长和成功的不平等。
不均衡的增长模式:R1蓬勃发展而R2面临挑战的演变动态,体现了马太效应核心的不均衡增长轨迹。
简而言之,我们的发现强调了初始优势的深远影响以及反馈在为某些实体创造自我延续的成功循环和为其他实体带来挑战中的关键作用,与马太效应相一致。
3.4.3. 顾客分组减少赢者通吃
“赢者通吃”现象(Leadley et al., 2014)是由于马太效应而发生的。我们将赢者通吃定义如下:在五天的竞争后,一家餐厅拥有超过80%的顾客,直到竞争结束(第15天)。通过对这一现象进行统计分析,我们观察到赢者通吃在单身顾客中更频繁发生(66.7%),而在团体顾客中很少发生(仅发生一次,即16.7%)。我们认为这种现象是由于图3所示的结果之一,该图显示团体更倾向于探索新事物,并且不将声誉视为关键指标。
群体的偏好使弱势餐厅有机会让他们的菜肴受到关注,实施有效的策略,并收集反馈以进行改进。这些实验顾客也可能通过他们的评论向其他人推荐餐厅。这破坏了之前建立的马太效应的正反馈机制,从而削弱了赢者通吃的局面。
3.4.4. 竞争提高产品质量
一个有趣的现象是,在竞争中,餐厅的菜品质量通常会越来越好。这一现象与相关研究(Lieberman and Asaba, 2006; Garvin, 1988)非常吻合。我们通过两个方面展示了质量的提升:首先,至少有一家餐厅的菜品平均评分随时间改善的频率为86.67%,这表明,与之前相比,顾客很可能在一家餐厅有更好的用餐体验。然后,图5©也支持这一结果:菜品的平均评分随时间增加。从第1天到第15天,R1的菜品评分平均增加了0.26,R2的菜品评分平均增加了0.22。我们发现,竞争是这一改进的关键因素。在高度竞争的市场中,顾客有更多选择,迫使竞争者更加关注提高服务质量。同时,由于竞争对手的存在,竞争者必须努力提高标准以获得竞争优势。这种动态环境最终推动竞争者提高菜品质量。
接下来,一段历史记录如下:
4. 讨论
与现有理论的一致性及其原因。如表2所示,一系列观察到的现象与现有的社会学和市场理论非常吻合。微观层面的现象(差异化、模仿、顾客导向)是代理内生行为的体现。但由于我们采用的大型语言模型(GPT-4)的黑箱性质,为什么代理会表现出这些行为尚未得到探索。一个可能的解释是,模型在大量语料库上进行了良好的训练,这些语料库包含了来自心理学、社会学和经济学等各个学科的文本(OpenAI, 2023)。因此,我们怀疑模型可能已经记住了这些流行的理论和例子,导致我们的提示触发了这些“常见”行为。
超越一致性。一个有趣的问题是:基于LLM的代理能否不仅仅遵循训练数据中的现有知识?它们能否培养新的智能?我们认为,这在对社会学和经济学的研究中可能具有深远的重要性,利用代理来揭示新的规则、定律,甚至理论。此外,观察到的行为与现有理论非常吻合,表明它们也与人类价值观一致(Gabriel and Ghazavi, 2021),这可能会引发价值对齐社区的兴趣,在基于代理的环境中进行研究。这项工作可以作为此类对齐研究的基线,并可以引入更复杂的算法。
AI采用的更广泛影响。认识到LLM竞争中存在马太效应,可以为采用和改进较新或较小的LLM代理提供策略。通过了解它们可能因初始劣势而面临的挑战,可以制定策略来平衡竞争环境。在LLM领域观察到的马太效应可能导致垄断行为或少数主导模型集中权力。认识到这一效应对于确保AI领域的多样性、公平性和广泛访问至关重要。通过理解基于LLM的竞争中的马太效应动态,研究人员和开发者可以更好地设计训练协议、反馈机制和集成策略,以确保即使处于初始劣势的代理也有机会蓬勃发展。
5. 相关工作
竞争的实证研究。通过研究现实世界中的竞争现象,这种方法揭示了几个模式和规则,为竞争动态提供了宝贵的见解(Porter, 2008; Kosfeld and Von Siemens, 2011)。例如,Markussen et al. (2014) 发现,团队间的竞争可以作为团队内合作的催化剂,通过刺激相对群体表现的改进。Chen (2008) 进一步强调了现实世界场景中合作与竞争之间的复杂相互作用。Rigney (2010) 提出了“马太效应”,揭示了学术界的竞争现象。该效应表明,知名学者更有可能获得资源、荣誉和引用,而新学者面临更大的竞争压力。这些研究基于对现实世界情况的观察和分析,无法独立控制变量。此外,收集全面数据具有挑战性,导致一些重要现象研究不足。
基于大型语言模型的代理建模。由于大型语言模型展示出的强大能力和类似人类的行为,许多研究人员开始将基于LLM的代理应用于基于代理的建模(ABM),以构建更智能的代理和更真实、复杂的模拟场景。作为开创性工作,Generative Agent (Park et al., 2023) 建立了一个由25个代理组成的村庄。这项工作系统地设计了模拟环境中的代理架构,为未来的代理设计奠定了基础框架。此外,该研究探索了模拟中信息传播的现象和机制,标志着将基于LLM的代理应用于ABM的重要里程碑。Wang et al. (2024) 开发了一个虚拟推荐系统环境,以研究过滤气泡和用户从众等现象。Li et al. (2024) 将基于LLM的代理应用于宏观经济环境,成功复制了传统模拟方法难以再现的现实世界现象。
在协作合作领域也取得了显著进展。CAMEL (Li et al., 2023a) 提出了一种代理合作框架,具有规划指挥官和任务执行者。Qian et al. (2023) 创建了一个虚拟软件公司,代理担任CEO和工程师等角色,协作完成软件开发项目。Zhang et al. (2023) 深入研究了代理之间的合作机制,从社会心理学角度提供了见解。
尽管在合作机制方面取得了进展,但对竞争机制的研究仍然有限。Chen et al. (2023) 构建了一个拍卖场景,以评估LLM的竞争规划和执行能力,但该研究更侧重于这些能力,而不是分析LLM展示的行为或系统内的动态变化。Han et al. (2023) 研究了企业竞争与合作,主要集中在价格动态上。这些研究未能模拟复杂的竞争环境,并彻底探索竞争行为和系统演变。我们的研究旨在填补这一关键空白。
6. 局限性和未来方向
尽管本研究在竞争场景中对基于LLM的代理进行了有价值的初步探索,但它应被视为该领域更全面研究的基石。(1)样本量和多样性。由于GPT-4 API的限制,我们的实验没有涉及大量餐厅和顾客。(2)基于文本的互动。我们目前的框架利用了最擅长基于文本的语言学习模型(LLM)GPT-4,它主要依赖于文本数据。我们承认,现实世界环境通常涉及多模态互动和输入,如图像、视频和音频。随着更复杂的多模态LLM大规模公开可用,我们预计未来的研究可以提供更全面的视角。(3)版本特定的发现。我们的结果基于GPT-4-0613。我们承认未来的API更新可能会影响结果。
7. 结论
我们介绍了一个通用框架,CompeteAI,用于研究基于LLM的代理的竞争动态。通过将框架实例化为一个虚拟小镇,其中包括餐厅和顾客代理,我们广泛探索了代理的竞争行为。我们的研究表明,基于LLM的代理可以用于模拟竞争环境,为未来在社会学、经济学和人类研究中的研究提供了经验。
附录
A. 预备知识
社会学习理论(Bandura and Walters, 1977)认为,个体通过观察、模仿和建模来学习新行为。这一范式在心理学、教育和社会学等领域得到了应用(Latham and Saari, 1979; Deaton, 2015; Davis and Luthans, 1980)。它为理解个体认知与外部影响在学习中的复杂相互作用提供了坚实的框架。在这项工作中,我们通过仔细研究LLM-based代理在互动环境中的行为,探索了社会学习理论的应用。通过全面的实验,我们成功阐明了LLM-based代理如何展示有效的社会学习行为,并确立了它们在模拟各学科社会科学复杂动态中的潜在用途。
市场竞争理论(Smith, 1937)阐述了公司和组织如何在市场中竞争消费者的注意力和有限的资源(Smith, 1937),这对于理解经济动态、塑造商业战略和指导公共政策决策起着至关重要的作用(Hirshleifer, 1978)。在本研究中,我们通过调查LLM-based代理之间的竞争如何影响其学习过程和决策机制,深入探讨了市场竞争理论的适用性。通过细致的实证研究,我们发现了有力的证据,表明当这些代理参与竞争环境时,它们在服务质量和适应策略以满足客户多样化和不断变化的需求方面表现出显著的提升。这些发现强调了在竞争市场中采用以客户为中心的策略以取得成功的重要性。
B. 环境
B.1. 框架的详细介绍
在本节中,我们介绍了框架的关键概念,包括环境、竞争者、裁判、约束、服务与反馈以及代理优化。
• 环境:竞争发生的模拟空间,通常由基于LLM的代理支持。
• 竞争者:主要主体,他们执行某些行动以获得优势,例如吸引更多客户或获得更多选票。
• 裁判:从竞争者那里接收服务的实体,并影响他们的成功,例如零售环境中的客户或选举中的选民。
• 约束:旨在平衡竞争场地的规则。例如,限制每餐只能选择一家餐厅或每次选举每人只能投一票。
• 服务与反馈:竞争者提供服务以赢得裁判的支持,裁判反过来提供反馈,指导竞争者未来的行动。
• 代理优化:竞争者和裁判根据互动进行适应,例如更新策略或与同行分享信息。
• 环境优化:根据研究过程进一步优化环境设计,以更好地模拟现实世界场景,并在模拟资源(API费用、硬件和软件约束)与现实世界场景之间实现平衡。
B.2. 我们的环境
我们环境中的小型虚拟小镇如图6所示。
C. 餐厅和顾客代理的实现
C.1. 餐厅代理
餐厅代理的流程如图7所示,表3显示了可操作的API。
C.2. 顾客代理
顾客代理的流程如图8所示。
所有顾客的详细信息见表4,所有小组的详细信息见表5。
D. 详细结果
所有顾客的餐厅选择分布如图9所示。单身和团体的平均原因分布见表6。