浙大×小红书发布MT-R1-Zero：强化学习重塑机器翻译，7B小模型媲美GPT-4o

最新推荐文章于 2025-05-10 22:50:00 发布

PaperWeekly

最新推荐文章于 2025-05-10 22:50:00 发布

阅读量72

点赞数

文章标签：机器翻译人工智能自然语言处理

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247702363&idx=2&sn=ecfb257a980a8f5c841ef0ade234d268&chksm=9785091411d4340fdd90d0838848f4c9ded39e887f6a133fc0af6298a2b30d406fe582619469&scene=126&sessionid=0

版权

目前，大模型推理领域的强化学习（如R1-Zero）主要面向数学和代码等任务，将其应用于开放式自然语言生成任务（如，机器翻译），面临着奖励设计困难、推理能力诱导不确定、泛化能力待验证等诸多未知的挑战。

针对这些难题，我们提出了 MT-R1-Zero，首次将 R1-Zero 范式成功扩展到机器翻译领域的实现。该方法无需监督微调或依赖思维链（CoT）等冷启动数据，仅通过对最终翻译结果度量反馈，进行端到端强化学习优化。

论文题目：

MT-R1-Zero: Advancing LLM-based Machine Translation via R1-Zero-like Reinforcement Learning

论文链接：

https://arxiv.org/abs/2504.10160

GitHub仓库：

https://github.com/fzp0424/MT-R1-Zero

研究团队：

浙江大学刘佐珠/吴健课题组、小红书NLP团队

▲ Figure 1: MT-R1-Zero (Mix) 与主流模型在WMT24 EN-ZH任务上的性能对比 (平均分 vs 模型大小)

核心方法

规则-度量混合奖励（Rule-Metric Mixed Reward）在机器翻译中应用 R1-Zero 的核心挑战在于评估的不确定性和输出的灵活性。我们创新性地提出了规则-度量混合奖励机制（Rule-Metric Mixed Reward）：

1. 格式奖励（Format Reward）：采用严格的格式检查，强制模型生成包含 <think> (思考过程) 和 <translate> (翻译结果) 标签的结构化输出，这保证了推理过程的可观察性。格式错误将受到固定惩罚，激励模型优先学习正确格式。

度量奖励（Metric Reward）：一旦格式正确，则引入连续的翻译质量度量分数作为翻译质量奖励信号。我们探索了三种度量策略：

1. Reward-Lex（词汇优先）：使用基于 N-gram 匹配的 BLEU 度量作为奖励，侧重词汇准确性。

2. Reward-Sem（语义优先）：使用基于深度学习的语义感知模型 COMETKiwi-23 作为奖励，侧重语义保真度。

3. Reward-Mix（混合均衡）：结合 Reward-Lex 与 Reward-Sem，旨在同时优化词汇和语义两个维度，寻求最佳平衡。

实验结果

7B 模型媲美闭源 SOTA：MT-R1-Zero-7B-Mix 在综合三大指标（BLEU, COMETKiwi, XCOMET）的平均分上达到 62.25，性能与顶级闭源模型 GPT-4o (61.86) 和 Claude-3.5-Sonnet (62.42) 旗鼓相当，展示了强大的综合翻译能力。

语义指标达到 SOTA：MT-R1-Zero-7B-Sem 专注于语义优化，在 COMETKiwi (72.07) 和 XCOMET (79.37) 上取得最佳分数，显著超越了包括 Claude-3.5 在内的所有基准模型。

小模型超越大模型：MT-R1-Zero-3B-Mix 的平均分 (57.81) 显著超越了同尺寸基线模型 TowerInstruct-7B-v0.2 (56.55)。MT-R1-Zero-3B-Sem 在 COMETKiwi (69.75) 上也超越了远大于它的 LLaMA-3.1-70B (68.05)。

强大的泛化能力：在 OOD（分布外）测试中，仅在英汉数据上训练的 MT-R1-Zero-7B 模型，在日英、德英、德汉等任务上表现出优异的零样本泛化能力，XCOMET 分数显著优于同尺寸基线模型。

关键发现与洞见

奖励设置至关重要：奖励度量的选择（Lex, Sem, Mix）直接决定了模型的优化侧重和最终的翻译风格（词汇精准 vs. 语义流畅）。

推理长度先降后升：训练过程中，模型的回复长度通常先快速下降（学习格式和效率），然后随着思考过程的复杂化而缓慢上升，同时翻译质量持续提升。

涌现的推理模式与语言自适应：模型在训练中自主产生了多样的推理模式，从结构化规划到更口语化的步骤。更令人惊讶的是，模型进行内部推理的“思考语言”会动态地自适应到目标翻译语言，即使从未直接训练过该翻译方向。

模型架构的适应性差异：不同LLM架构对MT-R1-Zero范式的适应性差异显著。Qwen系列模型展现出最佳的兼容性，能更好地学习格式并生成连贯推理。相比之下，LLaMA和Tower (Translation-specific) 模型则面临更大挑战，并倾向于通过生成空洞内容来“欺骗”格式奖励 (format hacking)。