本文是LLM系列文章,针对《Pragmatic Competence Evaluation of Large Language Models for Korean》的翻译。
摘要
目前对大型语言模型(LLM)的评估主要依赖于通过多项选择题(MCQ)进行测试来关注其嵌入知识的基准,这是一种天生适合自动评估的格式。我们的研究扩展了这一评估,以探索LLM的语用能力——在复杂的LLM出现之前,特别是在韩语的背景下,这一方面以前没有得到充分的研究。我们采用了两种不同的评估设置:适用于自动评估的传统MCQ格式和由人类专家评估的开放式问题(OEQ),以在没有预定义选项的情况下检查LLM的叙述性反应能力。我们的研究结果表明,GPT-4表现出色,在MCQ和OEQ设置中分别获得81.11分和85.69分,HyperCLOVA X是一种针对韩语优化的LLM,紧随其后,尤其是在OEQ设置下,与GPT-4相比,得分为81.56分,边际差为4.13分。此外,虽然少镜头学习策略通常会提高LLM的性能,但思维链(CoT)提示引入了对字面解释的偏见,阻碍了准确的语用推理。考虑到人们对LLM理解和产生符合人类交际规范的语言的期望越来越高,我们的研究结果强调了提高LLM掌握和传达复杂含义的能力的重要性,而不仅仅是字面解释