文字是文明的重要标志和载体,古老的文明都拥有自己的文字。沿 着文字的变迁,我们能够追溯历史的进展。
然而,文字会随着文明的毁灭而失传。 面对古文明留下的符号,无人能够解读,甚至语言学家也很难破译。它们就像神秘的密码一样,复杂而神秘。
令人欣喜的是,AI 技术正在尝试翻译这些古老失传的文字。 麻省理工学院和谷歌人工智能实验室 的研究人员提出了一种 自动破译失传文字的神经网络算法。
这一算法首次实现了古希腊迈锡尼文明时期「线形文字 B」的自动翻译,准确地把 67.3% 的线形文字 B 同源词翻译成了希腊语,翻译结果比传统方法提升了 5.5%。
克里特文字:世界最难破译古文字之一
在那里,他马上就发现了许多笔迹相似的石碑,这些石碑能追溯到 公元前 1400 年 左右,碑上的刻字也就成为目前发现的最早的书写形式之一。伊万斯表示,这种线形形式是从早期艺术中粗糙的线条画演变而来,在语言史上占有重要地位。
时间上更近一点的文字系统称为 B 类线形文字, 公元前 1400 年后才出现。此时的克里特岛正被希腊大陆的迈锡尼人统治着。
破译 B 类线形文字的两个假设
第二,他假设这些刻字是古希腊语的早期形式——这让他能够立即翻译出 B 类线形文字的其他部分。在翻译过程中,文特里斯表示,古希腊语的书面表达形式比之前预想的还要早几个世纪。

国外的古文字研究大多基于符号学方法进行研究
通过机器学习绘制特定语言的联结
近年来, 注释数据库和机器学习技术的飞速发展,对语言学习产生了革命性的影响。这也为一直尝试破译古文字的科学家们提供了新的思路: 能使机器翻译运行的重要原理是,不同语言的单词在他们各自的参数空间中占据着相同的点。 这使得「把一种语言完全翻译成另一种语言,构成一对一的映射」成为可能。
基于此,来自麻省理工学院的罗家明(音译)和 Regina Barzilay,以及来自加州山景城谷歌人工智能实验室的曹源(音译), 以历史语言学中记录的语言变化模式为依据,利用序列对序列表达模型捕获同源词之间的字符级对应关系,建立了一种自动破译失传古文字的神经网络算法。 论文题目:《Neural Decipherment via Minimum-Cost Flow: from Ugaritic to Linear B》 论文地址:https://arxiv.org/pdf/1906.06718.pdf
这种表现非常独特,它在多重参数空间上定义了这个词语。实际上,这个词语可以视为空间内一个向量,这个向量在机器对任何语言的翻译结果中都起到重要的约束作用。
利用语言进化的约束
关于如何机器翻译一门失传的语言的问题,研究团队想到了从时间上做文章。
任何语言都会随着时间的变化,以某种形式变化,比如在相似的语言里,符号会有同样的形式分布,它们的相关词语有着相同的顺序等。
借助这些规则的约束,如果能够找到相关的语言形式,翻译问题就会迎刃而解。
以此为原理,罗家明团研发了一种技术,测试了两种失传语言,B 类线形文字和乌加里特语。
语言学家很早就研究清楚了,古希腊语的早期形式是由 B 类线形文字编码得到,而在 1929 年发现的乌加里特语则是希伯来语的早期形式。

团队提出的模型架构,编码器和解码器的输入
分别是丢失的语言和已知的语言
利用相关语言的约束规则,他们开发出来的模型,能够以相当高的准确度完成这两种语言的翻译。
对于 B 类线形文字,最终能将 67.3% 的同源词翻译成希腊语。而本次实验,也是首次尝试自动翻译 B 类线形文字。
期待机器学习破译最难古文字
一个难题被解决了,但是,对于世界上至今最难破译的文字如 A 类线形文字,机器能成功翻译吗?
在这篇文章中,没有涉及到 A 类线形文字的研究,但对它们的翻译,却是语言学家都会关心的问题。
当然,在 A 类线形文字能够被机器翻译之前,可能还需要一些突破口。
比如说 ,A 类线形文字和哪种语言有关联,现在还没研究清楚。而此前,将其翻译成古希腊语的尝试都失败了。如果不知道它的祖语言,现行的方法都将失效。
不过有人提出了一种笨办法,用类似穷举的方法,让计算机逐一将它翻译成已掌握的语言,也许就会试出它的对应表达。
如果能够奏效,这将是一项伟大的成就。所以,要做的事情就是,机器翻译在其力所能及的领域,将这些文字与每一种语言都进行对比。

世界上最难破解的四大文字之一:伊比利亚文字同样
A 类线形文字和克里特象形文字也是其中之一
破译人类语言是一个有趣且重要的课题,而现在,机器学习技术让那些探索者们,找到了有力的破解武器。
相关报道:
https://www.technologyreview.com/s/613899/machine-learning-has-been-used-to-automatically-translate-long-lost-languages/
本文系大数据文摘出品,由刘俊寰编译

—— 完 ——


扫描二维码,加入讨论群
获得优质数据集
回复「进群」自动入群
更多精彩内容(点击图片阅读)



