选翻译模型不再靠感觉!首个AI翻译实战榜来了,通用、行业、文化全面测评

随着AI大模型加速落地,翻译模型也迈入了“拼实力、看实用”的新阶段。近日,由阿里国际联合上海人工智能实验室司南评测体系、北京语言大学共建的多语言翻译评测榜单正式上线司南官网

该榜单基于TransBench评测集,围绕翻译通用标准、行业垂直标准、语言文化标准三大核心维度,精心设计评估体系,并构建高质量、多语种、多场景的评测数据集,全方位、多维度地量化翻译模型在不同行业、不同语言环境下的综合能力。与传统的翻译测评相比,TransBench增加了幻觉率、文化禁忌词、敬语规范等指标,首次面向工业界针对细分行业领域构建评测数据和评测方法。这些指标均来自真实场景的使用反馈,以此来测评大模型是否符合大规模应用的标准。

司南官网榜单:

https://rank.opencompass.org.cn/home

多语言翻译评测榜单:

https://transbench.com/?lang=zh-CN#/?lang=zh-cn

评测结果一览

在当前评测结果中:

  • GPT-4o以综合得分和通用标准得分双料第一的表现,稳居榜首,堪称当前翻译 AI 的“天花板”;

  • 电商行业场景中,DeepSeek-R1 表现亮眼,位列第二,展现出不俗的行业适应能力;

  • 而在文化特性维度上,Qwen 系列模型强势包揽前两名,体现出强大的语言迁移和文化适应能力。

从评测表现来看,各大模型在通用性、行业适配性与文化理解力上各有所长,这可以为用户在选择AI翻译服务时提供重要参考。

综合得分部分截图

通用标准得分部分截图

电商行业得分部分截图

文化特性得分部分截图

三大评测维度

通用标准评测

通用标准评估包含通用翻译质量评估(BLEU、COMET、TER、chRF)、鲁棒性、幻觉率三部分。TransBench沿用了四项经典指标作为基础评估工具,它们就像是构建高楼大厦的基石,为整体评估提供基础量化数据。这些指标的评估重点与应用场景各有不同,如下表所示:

以一句简单的翻译 “我喜欢阅读”(英文:I like reading)为例,若译文为 “I loves reading”,BLEU会根据 “like” 与 “loves” 的差异,降低其匹配得分;TER则会记录将 “loves” 修改为 “like” 这一替换操作,增加编辑距离;chrF会从字符层面评估 “loves” 与 “like” 的相似程度;而COMET通过上下文理解,能判断 “loves” 在该句中的语法错误,给出较低的语义质量评分 。

在这四项经典指标基础上,TransBench增加了鲁棒性和幻觉率评估,鲁棒性包含容错性、术语混杂、语序混乱;幻觉率评估包含整句未翻译或错译、译文漏翻或多翻、输出语种不符合预期。下表为鲁棒性和幻觉率样例。

行业场景评测

领域专业能力评估,围绕电商多语言展开,自研评估模型Marco-MOS(Mean Opinion Score),Marco-MOS专门针对电商领域的MT评估需求进行设计,其核心在于模拟人类对翻译质量的判断过程。在电商场景中,翻译的实用性和可接受性至关重要。 通过整合与清洗历史人工评测翻译数据,构建翻译评估模型Marco-MOS训练与验证数据集。通过多轮消融实验确定基座模型、实验参数和Prompt配置。最终将与人工评测的平均绝对差(MAE)降至±0.30,Marco - MOS与人类判断的Pearson相关系数达到了0.76,总共覆盖45个语向。这一数据显著优于 GPT - 4、COMET 等模型。

TransBench电商行业评测集,数据贯穿跨境电商业务从商品信息、商品查询、营销推广、客户服务和商品评论五个环节,挑选真实业务数据,脱敏后并交付给语言专家进行标注,作为评估测试集。

文化特性评测

文化特性评估,包含禁忌语、敬语两部分,在全球化商业活动中,文化差异是机器翻译必须跨越的鸿沟。比如 “龙” 在中文语境中象征祥瑞,但在西方文化中常与邪恶关联,翻译时需谨慎处理。TransBench 通过禁忌词准确率和敬语翻译准确率两项指标,为 MT 系统的文化适应能力打分。通过收集 232 例禁忌词和 107 例敬语测试数据,TransBench 建立了量化评估标准。在日语电商客服场景中,将普通语气的 “谢谢”(ありがとう)误译为对上级使用的 “ありがとうございます”,虽然意思相同,但从敬语体系角度属于翻译失误,会导致敬语翻译准确率降低。

评测数据集

目前,TransBench评测数据集已覆盖中文、英语、德语、土耳其语、法语、西班牙语等16种语言,并将持续扩展更多语种。围绕通用翻译标准、电商行业语境及语言文化特性三大维度,TransBench精心构建了多个细分数据集,力求真实还原多语言、多场景下的翻译挑战,全面评估模型在实际应用中的表现。

司南垂类共建榜单

选取垂直领域内司南合作伙伴的优秀评测集,对主流大模型进行评测,根据评测结果发布榜单。目前已发布的榜单还包含土木工程榜单、网络安全榜单、金融榜单、价值对齐榜单、法律榜单、医疗榜单。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值