根据圣经旧约《创世纪》中的记载,大洪水劫后,诺亚的子孙们在巴比伦附近的示拿地定居。说着同样语言的人类联合起来兴建巴别塔,这让上帝深为他们的虚荣和傲慢而震怒。于是他悄悄地离开天国来到人间,变乱了人类的语言,无法交流的人们做鸟兽散,巴别塔的伟念也就轰然倒塌。
圣经中对语言诞生的描述充满了天谴的色彩,虽然事实根本就不是这么回事,但语言的差异的的确确给人类的沟通与交流平添了诸多隔阂。难道伟大的巴别塔注定只是存在于幻想之中的空中楼阁吗?
令人沮丧的是,眼下这个问题的答案还是“是”。但在世界首台计算机 ENIAC 于 1946 年诞生后,科学家们就提出了利用计算机实现不同语言之间的自动翻译的想法。而在经历了超过一个甲子的岁月后,机器翻译已经取得了长足的进展,今天的执牛耳者则无疑是互联网巨头谷歌。
机器翻译源于对自然语言的处理。1949 年,洛克菲勒基金会的科学家沃伦·韦弗提出了利用计算机实现不同语言的自动翻译的想法,并且得到了学术界和产业界的广泛支持。韦弗的观点也代表了当时学术界的主流意见,就是以逐字对应的方法实现机器翻译。
语言作为信息的载体,其本质可以被视为一套编码与解码系统,只不过这套系统的作用对象是客观世界与人类社会。将字 / 词看成构成语言的基本元素的话,每一种语言就都可以解构为所有字 / 词组成的集合。而引入中介语言可以把所有语言的编码统一成为用于机器翻译的中间层,进而实现翻译。
比方说,同样是“自己”这个概念,在汉字中用“我”来表示,在英语中则用“I”来表示,机器翻译的作用就是在“我”和“I”这两个不同语言中的基本元素之间架起一座桥梁,实现准确的对应。
然而乐观和热情不能左右现实存在的客观阻力。今天看来,这样的一一对应未免过于简单。同一个词