谈谈大语言模型和机器翻译：以及我们如何来应对

黑客-小千

于 2025-02-24 11:24:58 发布

阅读量873

点赞数 27

文章标签：语言模型机器翻译人工智能计算机大模型 AGI

本文链接：https://blog.csdn.net/Cairo_A/article/details/145824018

版权

大型语言模型 (LLM) 已经风靡全球。

前排提示，文末有大模型AGI-CSDN独家资料包哦！

其中一些模型，例如OpenAI 的 GPT-4和谷歌的 PaLM2，已经在多语言数据集上进行了训练，并且至少在理论上也应该能够很好地完成机器翻译任务。

如何充分发挥大型语言模型在机器翻译中的潜力？下面我们来研究 LLM 在机器翻译环境中的工作原理以及如何运用好LLM。浪汛君将尽量用一些非技术性的词汇来进行描述。

当前的机器翻译模型

目前大多数商用机器翻译工具（例如 Google 翻译）都是基于具有 Transformer 架构的神经模型。这些模型专为一项任务而构建：机器翻译。开箱即用，它们在翻译通用内容所需的任务中已经表现得非常出色。然而，在专门的商业环境中，它们可能会错过正确的词汇或使用次优风格。

因此，通过训练这些模型识别您的个性化术语和短语，使用额外的业务数据来定制这些模型是很有用的。使用各种定制技术，该模型可以“学习”使用您企业的语气和术语，从而产生更好的机器翻译结果。

我给大家准备了一份全套的《AI大模型零基础入门+进阶学习资源包》，包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。😝有需要的小伙伴，可以VＸ扫描下方二维码免费领取🆓

大型语言模型 (LLM)

大型语言模型通常也基于 Transformer 架构。然而，与神经机器翻译 (NMT) 模型相比，它们在更大的文本主体上进行训练，包含更多的模型参数。LLM 包含数十亿个参数，而单任务双语 NMT 模型只有几亿个参数。这使得 LLM 模型在解释用户指令或“提示”时更加灵活和“智能”。这项新技术在使用业务数据进行模型定制方面开辟了许多新的可能性。我们来探索这种模型是如何运作的。

双重方法

使用 LLM 时，基本上有两种方法可以对模型进行微调，以便它在推理时（即生成响应时）产生更好的质量。

在使用前调整模型的参数（又称“权重”），以便它学会适应您的需求。这是一项资源密集型操作，需要 AI 工程师准备模型的定制版本。
使用情境学习。这是一种更简单的技术，当模型通过特别设计的提示生成响应时，它会告知模型您的数据和偏好。

第一个方法是进行参数调整：

更新 LLM 的参数可能是一项艰巨的任务。即使是小型 LLM 也有数十亿个参数。更新它们是一项计算成本非常高的任务，通常超出了普通消费者的承受能力，因为这样做的成本和复杂性实在太高了。

对于机器翻译，我们通常会从指令调整的 LLM 模型开始。这是一个经过微调的模型，它更有帮助，能够遵循指令，而不是简单地预测下一个单词。经过调整后，该模型将在总结、分类和机器翻译等各种任务上表现更好。

指令调优的 LLM 是进一步针对客户进行优化的良好起点。使用一种称为参数高效微调 (PEFT) 的方法，我们可以用客户数据以更短、更经济的方式对指令模型进行微调。

为了从这种方法中获得最佳效果，我们需要访问大量具有匹配源文本和目标文本的高质量训练数据。如果您已经建立了相当大的翻译记忆库，那么它很可能可以用于此目的。

第二种方法主要是：上下文学习或小样本学习

情境学习是一种让模型根据专门设计的提示引入的少量示例进行动态学习的方法。这种方法也称为小样本学习。

在机器翻译的背景下，小样本学习的工作原理如下：

系统会分析传入的源内容。通常，源内容由一个或多个句子或片段组成。
系统尝试找到类似的源内容片段及其各自的翻译的例子。
系统创建一个提示，其中包括要翻译的源内容和以前翻译的示例。
LLM 通过实例不断学习，创建高质量的原文翻译。

少样本学习对机器翻译的流畅性、语调和术语合规性有积极影响。它需要使用更少的示例，最多三到五个。事实上，样本量越大效率越低，因此将所有翻译记忆都包含在一个提示中对它没有好处。实验表明，LLM 不能很好地处理大型提示上下文，结果的质量甚至可能会下降！

通过结合参数优化和小样本学习的优势，可以在大型语言模型中实现强大的优化，最终实现超个性化、高质量的机器翻译。

您的语言数据是关键！

如果没有大量高质量、最新的各种语言对双语文本语料库，这些技术都无法发挥作用。您的翻译记忆库是此数据集的理想来源。

然而，在使用它之前，您必须考虑几个重要方面：

我给大家准备了一份全套的《AI大模型零基础入门+进阶学习资源包》，包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。😝有需要的小伙伴，可以VＸ扫描下方二维码免费领取🆓

质量：所有数据都应是高质量的，最好由合格的人工翻译人员翻译，并在四人工作流程中验证，即由两个人批准。
噪音：翻译记忆库中的数据可能并非全部相关。部分数据可能较旧、不相关或涉及已丢弃的产品。定期清理翻译记忆库以删除不相关的材料非常重要。
大小：您需要一定的数据量来确保微调效果良好。如果质量保持不变，数据量越大越好。

事实上，大部分客户累积的翻译记忆库数据量级和实际翻译的需求量级并不支撑或不需要给自己定制的大语言模型，而只需要选择与行业领域比较相关的大语言模型。我们通常的应对方法是先通过CAT来从翻译记忆库里匹配已有的句对，对于未匹配上的句对进行机器翻译，然后使用 LLM 进行后期编辑和调整，使其更准确，最后由语言专家来进行润色和定稿。主要工作流程图如下图：