本文是LLM系列文章,针对《Rapidly Developing High‑quality Instruction Data and Evaluation Benchmark for Large Language Models with Minimal Human Effort: A Case Study on Japanese》的翻译。
摘要
为大型语言模型服务的指令数据和评估基准的创建通常需要大量的人工注释。当为日语等非英语语言快速开发此类资源时,这一问题变得尤为突出。而不是遵循直接跨性别的流行做法将现有的英语资源转换为日语(例如,Japanese-Alpaca),我们提出了一种基于GPT-4的高效自学方法。我们首先将少量英语说明翻译成日语,并对其进行后期编辑,以获得母语水平的质量。GPT‑4然后利用它们作为演示,自动生成日语指令数据。我们还构建了一个评估基准,包含8个类别的80个问题,使用GPT-4在没有人为参考的情况下自动评估LLM的响应质量。实证结果表明,在所有三个基础预训练模型中,根据我们的GPT-4自我指导数据微调的模型显著优于Japanese-Alpaca。我们的GPT-4自我指导数据使LLaMA 13B模型以54.37%的胜率击败GPT-3.5(Davinci‑003)。人类评估显示GPT-4的评估与人类偏好之间的一致性。我们的高质量指令数据和评估基准在此发布。