符尧最新研究：大语言模型玩砍价游戏？技巧水涨船高！-CSDN博客

本文链接：https://blog.csdn.net/qq_27590277/article/details/130787891

深度学习自然语言处理原创
作者：鸽鸽

若干年前，AlphaGo Zero用两个AI代理切磋围棋技艺，打败了人类。今早，符尧的一篇论文刷新了我的认知：让大语言模型相互对弈，再加一个评论家提供建设性意见，提高菜市场砍价技巧！这种模式被作者定义为In-Context Learning from AI Feedback (ICL-AIF)，即来自AI反馈的上下文学习，使用评论家的反馈以及前几轮对话历史作为上下文。

没错，就是让GPT和Claude扮演卖家和买家，开展一场价格厮杀的对决！

论文：Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback
地址：https://arxiv.org/abs/2305.10142
代码：https://github.com/FranxYao/GPT-Bargaining

我们先来简单介绍游戏玩法：

任务是卖气球，交易价格设定为10美元至20美元，卖家要以更高的价格销售，而买家要以更低的价格购买！对于每轮交易，论文作者硬编码卖方以“这是一个好气球，价格为20美元”开始协商，买方则以“你是否考虑以10美元的价格出售它？”开始协商，协商结束后会有批评家提供反馈，改善买家或卖家的行为。衡量玩家表现的是最终成交价格。

图：谈判游戏的设置

哪些模型参与游戏呢？

筛选条件是可通过API调用的聊天机器人，包括cohere-command、AI21的jurassic-2、OpenAI的gpt和Anthropic的claude。根据chain-of-thought hub和HeLM 之类的基准测试，这些模型的大致排名是：gpt-4和claude-v1.3大致相似，优于gpt-3.5-turbo和claude-instant-v1.0，也优于cohere-command和j2-jumbo-instruct。作者表示将在未来考虑更多的模型，例如Google的PaLM-2。

但是，由于cohere-command不能理解谈判规则、AI21的j2-jumbo-instruct不能整合AI反馈，所以这两个模型被剔除。只考虑剩下的三个模型：gpt-3.5-turbo，claude-instant-v1.0和claude-v1.3。从表1看出，这三个模型在人类和AI反馈方面都表现出相当的改进，这证明了这个游戏设置对于更强的LLM引擎是有效的。