近日,NAACL 2025(Annual Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics,简称 NAACL)正式公布论文录用结果。小米大模型团队共有 2 篇最新研究成果成功入选 NAACL 2025,且均被收录为主会长文。
这两篇论文分别聚焦 GUI Agent 和机器翻译方向,其部分研究成果已在小爱翻译中得到实际应用。在 GUI Agent 方向,我们将手机控制任务拆解为页面到达和页面操作子任务,让 Agent 更关注整体任务完成能力,而非单步最优解;在机器翻译方向,我们基于大语言模型,探索用于多语言翻译中的最佳训练范式,并开源了一系列翻译模型。这是小米大模型部分研究成果的阶段性展示,同时也是践行小米科技战略中“深耕底层技术、长期持续投入”的又一例证。
作为自然语言处理和人工智能领域的顶级会议之一,NAACL 大会吸引了全球研究人员、学者和工程师参与。大会聚焦自然语言处理和计算语言学领域,全面展示自然语言处理、机器学习、语音识别、问答系统、机器翻译等多个领域的研究成果。NAACL 2025将于今年4月29日至5月4日,在美国新墨西哥州阿尔伯克基举行。
01
▍《ReachAgent: Enhancing Mobile Agent via Page Reaching and Page Operation》
论文作者:吴沁倬,刘伟,栾剑,王斌
录用类型:主会长文
论文链接:https://arxiv.org/abs/2502.02955
最近,移动 AI 智能体(Mobile AI Agent)越来越受到关注。给定一个任务,移动 AI 智能体可以通过多个步骤与移动设备交互,最终形成解决该任务的 GUI 链条。然而,现有的智能体往往在每个步骤中关注与任务最相关的元素,导致局部最优解,而忽略了整体 GUI 链条。为了解决这个问题,我们构建了一个名为 MobileReach 的训练数据集,将任务分为页面访问和操作子任务。
此外,我们提出了 ReachAgent,这是一个两阶段框架,专注于提高其任务完成能力。它利用页面访问和页面操作子任务以及基于奖励的偏好 GUI 链条来进一步增强代理。实验结果表明,与 SOTA 代理相比,ReachAgent 在步骤级别的 IoU 准确率和文本准确率上显著提高了7.12% 和 7.69%,在任务级别上显著提高了4.72% 和 4.63%。
▍《Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study》
论文作者:崔梦龙*,高鹏至*,刘伟,栾剑,王斌
录用类型:主会长文
论文链接:https://arxiv.org/abs/2502.02481
开源链接:https://huggingface.co/collections/ModelSpace/gemmax2-673714f5049bfa3a90bee6b6
近年来,研究者们通过多语言继续预训练技术来提升大语言模型的多语言翻译能力。先前的研究表明,混合使用单语数据和平行数据进行继续预训练能有效地提高模型的翻译效果。然而,如何在继续预训练阶段合理利用单语和平行数据,以最大化地提升模型的翻译能力,仍未得到充分探讨。
为了解决这一问题,我们开展了一系列实验,提出了一种平行优先、单语次之(Parallel First, Monolingual Second, PFMS)的训练策略。具体而言,对于每种语言的预训练数据,我们优先选择平行数据;在中低资源语言的平行数据不足时,我们采用单语数据进行补充。基于 Gemma2 基座模型和 PFMS 训练策略,我们训练并开源了 GemmaX2-28 系列模型。实验结果表明,与当前开源 SOTA 模型相比,GemmaX2-28 模型显著超越了同类模型并在翻译性能上达到 GPT-4 Turbo 和 Google Translate 等商用闭源模型水平。
02
多语言翻译技术赋能小爱翻译,打破语言壁垒
小米大模型团队自研的多语言翻译模型,已深度应用于小爱翻译,为用户带来了更加便捷、高效的语言交互体验。
依托这一技术,小爱翻译能为用户带来全方位的语言助力。在观看无字幕的外语视频时,用户不再受语言隔阂的困扰,能原汁原味地沉浸其中,深度领略不同文化的独特魅力;浏览外文网页时,繁杂的外文内容不再晦涩难懂,用户只需轻轻一点,便能获取精准的内容解读,轻松打破信息获取过程中的语言壁垒。
在与外国友人的交流场景中,无论是面对面的深度文化探讨,还是电话里的畅快沟通,小爱翻译都能成为得力助手,让交流无阻碍;在日常生活中,遇到含有外文的图文,也可立马得到精准的机器翻译译文。真正做到随时随地,轻松应对各种语言障碍,实现边说边译、边听边译、边看边译,开启即时交流的便捷新时代。
未来,我们将持续探索和推动多语言翻译技术发展,服务于产品应用,让全球每个人都能享受没有语言障碍的美好生活。