论文笔记：ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate

最新推荐文章于 2025-05-07 15:28:01 发布

UQI-LIUWJ

最新推荐文章于 2025-05-07 15:28:01 发布

阅读量743

点赞数 6

分类专栏：论文笔记文章标签：论文阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40206371/article/details/137228712

版权

ICLR 2024 最终评分 55666

1 背景

文本评估通常需要大量的人力和时间成本
- 随着LLM的出现，研究人员探索了LLMs作为人工评估替代方案的潜力
- 基于单一代理的方法表现出潜力，但实验结果表明需要进一步的进展来弥合它们当前的有效性和人类级别的评估质量之间的差距
——>论文采用了多agent辩论框架
- 利用它们各自的能力和专业知识来提高处理复杂任务的效率和效果
- 构建了一个名为ChatEval的多agent裁判团队，允许每个agent使用不同的沟通策略进行协作讨论，以制定最终判断
- 为了丰富评估动态，ChatEval中的每个代理都赋予了独特的个性（persona）
  - ——>确保每个代理专注于不同的视角或带来特定的专业知识。
  - ——>通过这样做，集体评估从更全面的视角受益，捕捉单一视角可能忽略的细微差别

2 方法

将每个LLM视为一个agent，并要求它们从给定的prompt中生成response。
来自其他agent的response作为聊天历史记录，填入prompt template。

2.1 举例

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UQI-LIUWJ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。