AI同传在机器翻译领域中算是一个关注度相当广泛的问题,对于大众来说,人们对其最深的印象就是科大讯飞的技术造假,对于行业内来说,AI同传任务处理上实时性、专业度的要求都极高,容错率也相对更低,在机器翻译领域算是一个难度很大的任务,甚至有人称之为机器翻译的“圣杯”。
是圣杯,自然少不了挑战者。除了孜孜不倦的独角兽,微软、百度、谷歌等海内外的AI大厂也都在不断攻克这项难题。最近百度新推出的即时机器翻译系统,可以说是给出了一些新的解决思路。
是什么为AI同传送上圣杯?
AI同传之所以难度能够达到“圣杯级别”,还是来自于语言本身的复杂程度和不同语言之间的巨大差异。
给前者举个例子。对于机器翻译,尤其是语音转码文字的部分来说,一个很大的难点就是同音不同字。有的词同音不同字并且意义差距很大,比如南方和男方。遇到同音不同字的问题时,很多同传系统只要认定了第一次识别的语音,很难再根据语境调整语音和文字之间对照。这就有可能导致整个句子在翻译时出现严重的误差。
后者则主要体现在语序的差异上,中文上说“她送给我的花很美”,英文上却说“The flowers she gave me are beautiful”, 在不听完整个句子之前,是很难给出准确翻译结果的,因为在中文中作为主语的“花”出现在“她送给我”这一定语之后,可英文中主语“The flowers”却出现在句子的开头。
所以目前大多数AI同传,要么是等待一个完整的句子说完后,再进行翻译,要么是根据当前识别结果进行翻译,然后随着识别字数的增加,不断修正结果。