七个LLM的狼人杀之夜

407e685d06c9dae12bc35561f66aa9b5.jpeg

深度学习自然语言处理 原创
作者:Winnie

在最新一篇论文中,研究团队让一群大语言模型(LLM)开了一局狼人杀游戏。通过多种Prompt方法集成,LLM不仅成功地参与了游戏,还涌现出了信任、欺诈和领导力等团体能力。

4b9fc05c13f1e2067d453048cd411668.png

Paper: Exploring Large Language Models for Communication Games: An Empirical Study on Werewolf
Link: https://arxiv.org/abs/2309.04658

进NLP群—>加入NLP交流群

问题定义

在这场狼人杀游戏中,七名LLM被分配了五种不同的角色,包括狼人、村民、女巫、守卫和预言家。游戏在白天和黑夜之间交替进行,每个阶段都有特定的活动和决策需要做出。

c052eeb4912433b4623d3ac86c8e96eb.png

Prompt方法

为了让LLM智能体能够更好地适应这种动态和策略性十足的游戏环境,研究团队运用了多种prompt方法来促进推理。对于每个LLM参与者,它的prompt如下图所示:

1a1232f760caba92e43b2d4e7683b476.png

研究人员为每个角色定义了一些基本问题。这些问题旨在回忆有用的信息。此外,它们还起到了指导LLM初始思维的作用。这些问题如下表所示。

790109c6c6c762b1c693a09bf2136287.png

实验结果

为了评估prompt方法,作者变体模型输出中提取了50个响应,进行了人工评估。在这个过程中,评注者需要判断每个输出的合理性,其中包括检查是否存在幻觉、是否忽视了其他因素的影响或是否采取了反直觉的行动。下图展示了方法的效果。结果清楚地表明,完整的prompt方法可以比其他任何变体产生更合理和更现实的响应。

7349a98bc3771c1904279b30362b0420.png

此外,游戏中观察到LLM在游戏规则或提示中表现出一些没有明确预编程的战略行为。这些行为分为四类,包括信任、对抗、伪装和领导。

结语

经过一系列游戏实验,LLM不仅展示了深刻的游戏理解力,还成功地模拟了人类玩家在游戏中可能展示的多元特质。这项实验不仅丰富了我们对LLM在策略游戏中的能力理解,还为未来的多LLM合作解决任务打开了新的可能性。


进NLP群—>加入NLP交流群

### 多个LLM智能体协作实现与最佳实践 #### 设计架构 为了使多个大型语言模型(LLM)智能体能够有效合作,设计合理的通信协议至关重要。这通常涉及定义消息传递标准以及交互模式[^1]。 #### 选择合适的框架和技术栈 采用支持多代理系统的开发平台可以简化这一过程。例如,在Python环境中,Ray库提供了强大的分布式计算能力,允许创建并管理复杂的代理网络;而Dapr则是一个跨云和边缘环境运行的应用程序的开源中间件项目,它能帮助构建可靠的服务间通讯机制。 #### 实现方法论 一种常见的做法是通过事件驱动的方式让各个Agent监听特定类型的输入信号,并据此触发相应的处理逻辑。当某个Agent完成任务后会向其他成员发送通知或更新状态共享资源表单以便于后续操作继续推进流程向前发展。 ```python import ray @ray.remote class Agent: def __init__(self, id): self.id = id async def process(self,message): print(f"Processing by agent {self.id}: ", message) if __name__ == "__main__": ray.init() agents = [Agent.remote(i) for i in range(3)] futures = [agent.process.remote("hello") for agent in agents] results = await asyncio.gather(*futures) ``` #### 安全性和隐私保护措施 考虑到不同LLMs可能来自不同的信任域内,因此必须重视安全性考量。可以通过加密传输通道、访问控制列表等方式来保障数据交换的安全性;同时也要注意遵循GDPR等相关法律法规的要求以维护用户个人信息权益不受侵犯。 #### 性能优化建议 对于大规模部署场景而言,性能瓶颈往往成为制约因素之一。为此可采取诸如批量请求合并提交、异步I/O调度等手段提高整体吞吐量水平;另外还可以利用缓存技术减少重复查询所带来的开销从而加快响应速度提升用户体验满意度。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值