目前,大模型推理领域的强化学习(如R1-Zero)主要面向数学和代码等任务,将其应用于开放式自然语言生成任务(如,机器翻译),面临着奖励设计困难、推理能力诱导不确定、泛化能力待验证等诸多未知的挑战。
针对这些难题,我们提出了 MT-R1-Zero,首次将 R1-Zero 范式成功扩展到机器翻译领域的实现。该方法无需监督微调或依赖思维链(CoT)等冷启动数据,仅通过对最终翻译结果度量反馈,进行端到端强化学习优化。
论文题目:
MT-R1-Zero: Advancing LLM-based Machine Translation via R1-Zero-like Reinforcement Learning
论文链接:
https://arxiv.org/abs/2504.10160
GitHub仓库:
https://github.com/fzp0424/MT-R1-Zero
研究团队:
浙江大学刘佐珠/吴健课题组、小红书NLP团队
▲ Figure 1: MT-R1-Zero (Mix) 与主流模型在WMT24 EN-ZH任务上的性能对比 (平均分 vs 模型大小)
核心方法
规则-度量混合奖励(Rule-Metric Mixed Reward)在机器翻译中应用 R1-Zero 的核心挑战在于评估的不确定性和输出的灵活性。我们创新性地提出了规则-度量混合奖励机制(Rule-Metric Mixed Reward):
1. 格式奖励(Format Reward):采用严格的格式检查,强制模型生成包含 <think> (思考过程) 和 <translate> (翻译结果) 标签的结构化输出,这保证了推理过程的可观察性。格式错误将受到固定惩罚,激励模型优先学习正确格式。
度量奖励(Metric Reward):一旦格式正确,则引入连续的翻译质量度量分数作为翻译质量奖励信号。我们探索了三种度量策略:
1. Reward-Lex(词汇优先):使用基于 N-gram 匹配的 BLEU 度量作为奖励,侧重词汇准确性。
2. Reward-Sem(语义优先):使用基于深度学习的语义感知模型 COMETKiwi-23 作为奖励,侧重语义保真度。
3. Reward-Mix(混合均衡):结合 Reward-Lex 与 Reward-Sem,旨在同时优化词汇和语义两个维度,寻求最佳平衡。
实验结果
7B 模型媲美闭源 SOTA:MT-R1-Zero-7B-Mix 在综合三大指标(BLEU, COMETKiwi, XCOMET)的平均分上达到 62.25,性能与顶级闭源模型 GPT-4o (61.86) 和 Claude-3.5-Sonnet (62.42) 旗鼓相当,展示了强大的综合翻译能力。
语义指标达到 SOTA:MT-R1-Zero-7B-Sem 专注于语义优化,在 COMETKiwi (72.07) 和 XCOMET (79.37) 上取得最佳分数,显著超越了包括 Claude-3.5 在内的所有基准模型。
小模型超越大模型:MT-R1-Zero-3B-Mix 的平均分 (57.81) 显著超越了同尺寸基线模型 TowerInstruct-7B-v0.2 (56.55)。MT-R1-Zero-3B-Sem 在 COMETKiwi (69.75) 上也超越了 远大于它的 LLaMA-3.1-70B (68.05)。
强大的泛化能力:在 OOD(分布外)测试中,仅在英汉数据上训练的 MT-R1-Zero-7B 模型,在日英、德英、德汉等任务上表现出优异的零样本泛化能力,XCOMET 分数显著优于同尺寸基线模型。
关键发现与洞见
奖励设置至关重要:奖励度量的选择(Lex, Sem, Mix)直接决定了模型的优化侧重和最终的翻译风格(词汇精准 vs. 语义流畅)。
推理长度先降后升:训练过程中,模型的回复长度通常先快速下降(学习格式和效率),然后随着思考过程的复杂化而缓慢上升,同时翻译质量持续提升。
涌现的推理模式与语言自适应:模型在训练中自主产生了多样的推理模式,从结构化规划到更口语化的步骤。更令人惊讶的是,模型进行内部推理的“思考语言”会动态地自适应到目标翻译语言,即使从未直接训练过该翻译方向。
模型架构的适应性差异:不同LLM架构对MT-R1-Zero范式的适应性差异显著。Qwen系列模型展现出最佳的兼容性,能更好地学习格式并生成连贯推理。相比之下,LLaMA和Tower (Translation-specific) 模型则面临更大挑战,并倾向于通过生成空洞内容来“欺骗”格式奖励 (format hacking)。
开放与展望
MT-R1-Zero 证明了,即使在评估复杂、输出灵活的机器翻译任务上,纯粹的、基于度量的强化学习也是一条很有潜力的技术路径,希望这项工作能启发更多将RL应用于复杂自然语言生成任务的研究。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·