Exploring the Impact of the Output Format on the Evaluation of Large Language Models

本文是LLM系列文章,针对《Exploring the Impact of the Output Format on the Evaluation of
Large Language Models for Code Translation》的翻译。

摘要

编程语言之间的代码翻译是软件工程中一项长期存在的关键任务,有助于传统系统的现代化,确保跨平台兼容性,并提高软件性能。随着大型语言模型(LLM)及其在代码翻译中的应用的最新进展,人们越来越需要对这些模型进行全面评估。在这项研究中,我们在五种语言(包括C、C++、Go、Java和Python)的3820个翻译对上实证分析了11个流行的指令调整LLM的生成输出,参数范围从1B到46.7B。我们的分析发现,由我们评估的LLM生成的代码翻译中,26.4%至73.7%需要进行后处理,因为这些翻译通常包括代码、引号和文本的混合,而不是纯粹的源代码。忽略这些模型的输出格式可能会无意中导致低估其实际性能。当使用基于执行的指标(如计算精度(CA))对其进行评估时,这一点尤其明显。我们的结果表明,提示工程和正则表达式的战略组合可以有效地从模型生成输出中提取源代码。特别是,我们的方法可以帮助11个选定的模型实现92.73%的平均代码提取成功率。我们的研究结果揭示并激励了未来的研究,为代码翻译提供更可靠的LLM基准。

1 引言

2 背景和相关工作

3 研究设置

4 RQ1:LLM和提示的输出格式有什么特点?

  • 4
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值