本文是LLM系列文章,针对《THERMOMETER: TOWARDS UNIVERSAL CALIBRATION FOR
LARGE LANGUAGE MODELS》的翻译。
摘要
我们考虑大型语言模型(LLM)中的校准问题。最近的研究发现,指令调整等常见干预措施往往会导致LLM校准不佳。尽管校准在传统应用中得到了很好的探索,但校准LLM具有独特的挑战性。这些挑战既源于LLM的严格计算要求,也源于其多功能性,这使它们能够应用于各种任务。为了应对这些挑战,我们提出了THERMOMETER,这是一种为LLM量身定制的校准方法。温度计学习一个辅助模型,给定来自多个任务的数据,用于校准LLM。它在计算上是高效的,保持了LLM的准确性,并为新任务产生了更好的校准响应。对各种基准的广泛实证评估表明了所提出方法的有效性。
1 引言
2 相关工作
3 背景
4 THERMOMETER
5 实验
6 结论语
这项工作介绍了温度计,一种简单而有效的校准LLM的方法。通过全面的经验评估,我们发现它改进了校准&#