Benchmarking Large Language Models on Controllable Generation under Diversified Instructions

679 篇文章 3 订阅

已下架不支持订阅

本文提出CoDI Eval基准,用于系统评估大型语言模型(LLM)对多样化指令的响应能力,专注于泛化和覆盖。通过构建约束属性指令集,研究LLM在遵循特定限制时的行为。实验显示,尽管有进步,LLM在可控文本生成方面仍有局限,开源和商业LLM之间存在差距。该基准将促进LLM可控性的研究。
摘要由CSDN通过智能技术生成

本文是LLM系列文章,针对《Benchmarking Large Language Models on Controllable Generation
under Diversified Instructions》的翻译。

多样化指令下大型语言模型可控生成的基准

摘要

尽管大型语言模型(LLM)表现出了令人印象深刻的指令跟随能力,但尚不清楚它们是否以及在多大程度上能够对各种指令中可能包含的明确约束做出反应。因此,作为LLM对齐的一个重要方面,制定这样一套专门的指令以及研究LLM的最终行为是很重要的。为了解决这一空缺,我们提出了一个新的基准CoDI Eval,以系统、全面地评估LLM对具有各种约束的指令的响应。我们构建了一个约束属性指令的大型集合,作为一个专注于泛化和覆盖的测试套件。具体来说,我们提倡指令多样化过程来综合各种形式的约束表达式,并考虑具有更细粒度子类别的候选任务分类法。最后,我们将整个评估过程自动化,以促进进一步的发展。与现有的可控文本生成研究不同,CoDI-Eval首次将研究范围扩展到流行的指令跟随范式。我们在CoDI Eval上对具有代表性的LLM(例如,ChatGPT、Vicuna)进行了广泛的评估,揭示了它们在遵循特定限制的说明方面的局限性,并且开源和商业闭源LLM之间仍然存在显著差距。我们相信,这一基准将有助于研究提高LLM对指令响应的可控性。我们的数据和代码在

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值