本文是LLM系列文章,针对《Typhoon: Thai Large Language Models》的翻译。
摘要
Typhoon是一系列专门为泰语开发的泰语大型语言模型。本技术报告介绍了泰国LLM开发中的挑战和见解,包括数据准备、预训练、指令调整和评估。由于低资源语言的挑战之一是预训练数据的数量,我们应用持续训练来从强大的LLM中转移现有的世界知识。为了从预训练训阶段评估每个模型中包含的泰国知识,我们开发了ThaiExam,这是一个基于泰国高中生和投资专业人士考试的基准。此外,我们对Typhoon进行了微调,以遵循泰语指令,并在泰语指令数据集以及翻译、摘要和问答任务上评估了指令调整模型。在一套泰语基准测试上的实验结果表明,Typhoon的性能优于所有开源泰语模型,其性能在泰语中与GPT-3.5不相上下,但只有70亿个参数,在泰语文本标记化方面的效率高出2.62倍。
1 引言
2 相关工作
3 预训练
4 指令调整
5 风险和局限性
6 结论和未来工作
我们在Typhoon(一个有70亿个参数的泰语大型语言模型)上的工作表明,