AI翻译能力测评

tmwgsicp

已于 2024-08-08 20:00:26 修改

阅读量2.7k

点赞数 30

文章标签：人工智能

于 2024-08-08 10:50:36 首次发布

本文链接：https://blog.csdn.net/tmwgsicp/article/details/141016702

版权

引言

来自智谱AI的技术社区的AI大模型翻译能力测评活动，对比下AI大模型的翻译能力，最终翻译效果参阅截图。

注：本次测评数据样本较小，测试较为主观，测评结论仅供参考。

测评范围

智谱GLM-4-0520、智谱GLM-4-air、智谱GLM-4-flash、百度翻译、海螺（6.5s）、百川智能（Baichuan4）、讯飞星火3.5、讯飞星火4.0。

技术实现

在Excel内通过https调用各AI大模型的api接口。

测试结论

1、AI大模型展现出的翻译能力整体上比百度翻译效果要好

AI大模型和百度翻译区分度最高的语料是翻译“粉丝会给主播刷礼物”，如果没有理解语义直接按字面意思翻译，就会踩坑。百度翻译就很典型的踩坑了，将“刷”翻译为“brush”，而其他大模型都能够理解“刷”在整句话中的含义，将其翻译为“send”或“give”，即送礼物。

2、智谱家族三个模型中，GLM-4-0520整体翻译效果最好、GLM-4-air翻译效果中规中矩、GLM-4-flash翻译效果一般

不得不说，贵还是有贵的道理。根据官方定价，GLM-4-0520调用成本0.1元/千tokens、GLM-4-air调用成本0.001元/千tokens、GLM-4-flash调用成本0.0001元/千tokens。GLM-4-0520和GLM-4-flash调用成本相差千倍，成本的差异体现在翻译效果上区分度较为明显。

例如：在翻译“it's been a long time.yes,ma'am,a lot of water under the bridge.”时，GLM-4-0520能很好的理解上下文的语境，将“a lot of water under the bridge”表达为时间的流逝，甚至还能引用论语中的“逝者如斯夫，不舍昼夜”，确实有惊喜。反观GLM-4-flash，和百度翻译一样，没有理解上下文语境，直接将其翻译为“桥下有很多水”，稳稳的踩坑。就该语料对GLM-4-flash进行多轮测试发现，GLM-4-flash踩坑的概率相对较高，10次测试会出现4-5次翻译为“桥下有很多水”。

3、AI大模型的翻译能力发挥不稳定，较为依赖提示词

在实际测评过程中发现，大模型需要精心编写提示词，并且需要对一个语料进行多轮反复测试，才能找到较为满意的结果。翻译输出结果的稳定性是AI大模型翻译时出现的较为显著的问题，每次调用的翻译结果就像开盲盒一样难以预料。

典型语料分析

语料1：我光盘我骄傲

在这轮翻译中，讯飞星火4.0发挥最为出色，理解了语义，将“我光盘我骄傲”表达为“因不浪费食物而骄傲”。GLM-4-0520发挥相对中规中矩，虽然理解了语义，但是将其表达为“因自己是节俭的食客而骄傲”则相对逊色。其他AI大模型和百度翻译则全军覆没，直接按照字面意思翻译，有的将“光盘”翻译为“干净的盘子”，勉强合理，有的则翻译为“CD”，属实离谱。