Pragmatic Competence Evaluation of Large Language Models for Korean

该研究扩展了对大型语言模型(LLM)的评估,特别是韩语背景下的语用能力。通过传统多项选择题和开放式问题,分析GPT-4、HyperCLOVA X等模型的表现。结果显示,GPT-4在两种设置中表现出色,但CoT提示可能影响其语用推理。研究强调了评估LLM理解复杂含义而非仅字面解释的重要性。
摘要由CSDN通过智能技术生成

本文是LLM系列文章,针对《Pragmatic Competence Evaluation of Large Language Models for Korean》的翻译。

摘要

目前对大型语言模型(LLM)的评估主要依赖于通过多项选择题(MCQ)进行测试来关注其嵌入知识的基准,这是一种天生适合自动评估的格式。我们的研究扩展了这一评估,以探索LLM的语用能力——在复杂的LLM出现之前,特别是在韩语的背景下,这一方面以前没有得到充分的研究。我们采用了两种不同的评估设置:适用于自动评估的传统MCQ格式和由人类专家评估的开放式问题(OEQ),以在没有预定义选项的情况下检查LLM的叙述性反应能力。我们的研究结果表明,GPT-4表现出色,在MCQ和OEQ设置中分别获得81.11分和85.69分,HyperCLOVA X是一种针对韩语优化的LLM,紧随其后,尤其是在OEQ设置下,与GPT-4相比,得分为81.56分,边际差为4.13分。此外,虽然少镜头学习策略通常会提高LLM的性能,但思维链(CoT)提示引入了对字面解释的偏见,阻碍了准确的语用推理。考虑到人们对LLM理解和产生符合人类交际规范的语言的期望越来越高,我们的研究结果强调了提高LLM掌握和传达复杂含义的能力的重要性,而不仅仅是字面解释

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值