A Novel Paradigm Boosting Translation Capabilities of Large Language Models

最新推荐文章于 2024-08-16 22:44:00 发布

UnknownBody

最新推荐文章于 2024-08-16 22:44:00 发布

阅读量228

点赞数 7

分类专栏： LLM Daily LLM for NLP 文章标签： boosting 语言模型集成学习

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/139340888

版权

LLM Daily 同时被 2 个专栏收录

187 篇文章 3 订阅 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

LLM for NLP

29 篇文章 0 订阅

订阅专栏

本文提出一种新范式，通过单语言二次预训练、线性文本连续预训练和源语言一致性指令监督微调，提高LLM的翻译能力。实验表明，这种方法在较少参数的情况下，超越了NLLB-54B和GPT3.5text-davinci-003等模型，实现了卓越的机器翻译性能。

摘要由CSDN通过智能技术生成

本文是LLM系列文章，针对《A Novel Paradigm Boosting Translation Capabilities of Large Language Models》的翻译。

摘要

本文研究了在机器翻译任务中提高大型语言模型翻译能力的策略。本文提出了一种新的范式，包括三个阶段：使用广泛的单语言数据进行二次预训练，使用线性文本格式文档进行连续预训练，以及利用源语言一致性指令进行监督微调。先前对LLM的研究集中在监督微调（SFT）的各种策略上，但其有效性有限。虽然传统的机器翻译方法依赖于大量的平行双语数据，但我们的范式强调了使用较小的高质量双语数据集的重要性。我们认为，重点应该放在增强LLM在预训练期间的跨语言对齐能力上，而不是仅仅依靠SFT期间的大量双语数据。使用Llama2模型进行的实验结果，特别是在单语增强后的汉语Llama2上，证明了LLM的翻译能力得到了提高。我们的方法的一个重要贡献在于第2阶段：使用线性文本格式文档进行持续预训练，该阶段所需的训练数据少于1B，使我们的方法非常高效。此外，在第3阶段，我们观察到，设置与源语言一致的指令有利于监督微调过程。实验结果表明，与NLLB-54B和GPT3.5text-davinci-003等模型相比，尽管我们的方法的参数计数仅为7B或13B，但我们的方法超越了以往的工作，并取得了卓越的性能。

了解本专栏

超级会员免费看

UnknownBody

关注

7
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
A Novel Paradigm Boosting Translation Capabilities of Large Language Models

本文研究了在机器翻译任务中提高大型语言模型翻译能力的策略。本文提出了一种新的范式，包括三个阶段：使用广泛的单语言数据进行二次预训练，使用线性文本格式文档进行连续预训练，以及利用源语言一致性指令进行监督微调。先前对LLM的研究集中在监督微调（SFT）的各种策略上，但其有效性有限。虽然传统的机器翻译方法依赖于大量的平行双语数据，但我们的范式强调了使用较小的高质量双语数据集的重要性。我们认为，重点应该放在增强LLM在预训练期间的跨语言对齐能力上，而不是仅仅依靠SFT期间的大量双语数据。
复制链接

扫一扫