Pragmatic Competence Evaluation of Large Language Models for Korean

最新推荐文章于 2025-04-26 15:05:58 发布

UnknownBody

最新推荐文章于 2025-04-26 15:05:58 发布

阅读量72

点赞数

分类专栏： LLM Daily LLM Evaluation 文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/139515225

版权

LLM Daily 同时被 2 个专栏收录

1171 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

LLM Evaluation

82 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

该研究扩展了对大型语言模型（LLM）的评估，特别是韩语背景下的语用能力。通过传统多项选择题和开放式问题，分析GPT-4、HyperCLOVA X等模型的表现。结果显示，GPT-4在两种设置中表现出色，但CoT提示可能影响其语用推理。研究强调了评估LLM理解复杂含义而非仅字面解释的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文是LLM系列文章，针对《Pragmatic Competence Evaluation of Large Language Models for Korean》的翻译。

摘要

目前对大型语言模型（LLM）的评估主要依赖于通过多项选择题（MCQ）进行测试来关注其嵌入知识的基准，这是一种天生适合自动评估的格式。我们的研究扩展了这一评估，以探索LLM的语用能力——在复杂的LLM出现之前，特别是在韩语的背景下，这一方面以前没有得到充分的研究。我们采用了两种不同的评估设置：适用于自动评估的传统MCQ格式和由人类专家评估的开放式问题（OEQ），以在没有预定义选项的情况下检查LLM的叙述性反应能力。我们的研究结果表明，GPT-4表现出色，在MCQ和OEQ设置中分别获得81.11分和85.69分，HyperCLOVA X是一种针对韩语优化的LLM，紧随其后，尤其是在OEQ设置下，与GPT-4相比，得分为81.56分，边际差为4.13分。此外，虽然少镜头学习策略通常会提高LLM的性能，但思维链（CoT）提示引入了对字面解释的偏见，阻碍了准确的语用推理。考虑到人们对LLM理解和产生符合人类交际规范的语言的期望越来越高，我们的研究结果强调了提高LLM掌握和传达复杂含义的能力的重要性，而不仅仅是字面解释