近代自然语言处理的发家史可以从1940年代那阵子开始算,为啥这么说,主要是想介绍一下1949年的这个韦弗备忘录(Weaver Memorandum)。首先,我们来看看大家是怎么评价这个Weaver Memorandum的:
- The Weaver memorandum is probably the single most influential publication in the early days of machine translation, since it formulated goals and methods before most people had any idea of what computers might be capable of, and since it was the direct stimulus for the beginnings of research first in the United States and then later, indirectly, throughout the world. (https://aclanthology.org/www.mt-archive.info/90/MTNI-1999-Hutchins.pdf)
- While Weaver and Booth started one of the earliest MT projects in 1946 on computer translation based on expertise in breaking enemy codes during World War II, it was generally agreed that it was Weaver’s memorandum of 1949 that brought the idea of MT to general notice and inspired many projects. ("Natural Language Processing" by Elizabeth D. Liddy)
- Weaver's memorandum has been called the origin of statistical machine translation. (https://www.historyofinformation.com/detail.php?id=681)
- Weaver's memorandum triggered immediate action from the part of other MT specialists.(https://en.wikipedia.org/wiki/Warren_Weaver)
看到上面描粗的语句,可以发现Weaver Memorandum算是机器翻译任务的理论缘起,一石激起千层浪,就是这个feel了。这个备忘录的撰稿人是Warren Weaver,美国科学家、数学家,也是早期机器翻译研究者之一。第二次世界大战的时候,他将数学和统计技术应用在密码学上,即破译敌人的信息。战争期间,整个密码学领域都处于保密状态,但是不难猜想,解密过程会利用字母的频率、字母组合、字母和字母组合之间的间隔、字母模式等,这些在某种程度上与所使用的语言无关。 这立即导致人们假设,在人类发明和发展语言的多元化情况下,存在某些不变的属性,这些属性虽然不精确,但在从统计学的角度来看,是所有语言所共有的。
另外,由于韦弗在战争期间大量接触计算机设计问题,意识到现代电子计算机的速度、容量和逻辑灵活性棒棒棒,他想到了将这种计算机用于翻译的可能性。1948年的时候韦弗拜访了一个计算机实验室,并和几个研究人员讨论了处理单个单词的机器翻译,他们当时的套路是:首先“感知/sense”一个单词的字母组合,然后让机器看看它的内存是否恰好包含有问题的单词。 如果是这样,机器只会生成该单词的翻译。 如果内存中不包含这个确切的单词,机器会丢弃该单词的最后一个字母,然后重试。 如果失败,它会继续丢弃另一个字母,然后重试。 当它找到字典中最长的初始字母组合后,再去检索整个被丢弃的部分。比如running,系统会先找到run,然后找出ing对run的作用。但是这样的翻译并不足够,比如一词多义等情况。于是乎,韦弗在名为Translation的备忘录里阐述了更多想法,这边介绍几处备忘录里的原文。
- 含义和上下文
对于一词多义的情况,假设我们透过一个不透明的纸看书,纸上有一个单词宽的洞。看书的时候,一个一个单词看过去,显然不可能一次一个地确定单词的含义,比如苹果可能是手机品牌也可能是水果,是需要苹果这个词的上下文才能判断的。因此,如果我们让露出单词的洞变长,不仅可以看到苹果,还能看到苹果两侧的N个词时,就能大致判断出苹果指的是手机品牌还是水果。备忘录里还简单讨论了一下N该怎么设置,具体就不展开了详见原文。在2013年提出的词向量模型word2vec里就有一个参数,在gensim包里叫做window,下面是该参数的定义:
window (int, optional) – Maximum distance between the current and predicted word within a sentence.
怎么样,是不是有那味儿了。
- 语言和逻辑
这一段主要想讲两点:a robot (or a computer) constructed with regenerative loops of a certain formal character is capable of deducing any legitimate conclusion from a finite set of premises. 用具有某种形式特征的再生循环构建的机器人(或计算机)能够从一组有限的前提中推导出任何合法的结论。written language is an expression of logical character,语言中是存在逻辑元素的,书面语言是逻辑符号的表达。因此,机器翻译是可行的。这里不得不想到,不同语言都是有语法结构和语法规则的,比如主谓宾这种就可以用一些语义角色标签来表示。
- 翻译和密码学
克劳德·香农 (Claude Shannon) 发表的关于通信数学理论的著作,源于通信过程的统计特征。 他的理论也被用于密码学的应用。假设,我们把用中文写的书看作是“一本用英文写的书,但是编码成了中国编码”,如果密码学的问题已经有很好的解决方案,我们是不是也可以用来解决翻译的问题了呢?这里提到了两点,一个是密码破译的方法可能适用于翻译任务,另外,可以通过挖掘语言的统计特征来解决问题。这里不得不提到统计自然语言处理,研究人员会搜集一些文本然后以此作为构建统计模型的基础。比如要分析不同的写作风格,我们可以统计词语出现的频率,词语长度的分布或者句子长度的分布。再复杂一些,比如用条件随机场算法(Conditional Random Field,简称CRF)可以进行命名实体识别。而神经网络模型,也是需要大量数据来预测输出的概率。以文本为例,数据是非常多不同词语的排列组合,包含了相当多需要学习并拟合的统计信息。
- 语言和不变量
这里韦弗打了个比方:假设不同语言的人是居住在不同封闭的高塔中的人,但是所有塔都建在一个共同的基础上。 当他们试图互相交流时,会在各自封闭的塔楼里来回喊叫。 即使是最近的塔楼也很难让声音穿透,而且通讯效果确实很差。 但是,当一个人走下他的塔楼时,他发现自己身处一个巨大的开放式地下室,所有塔楼都是共用的。 在这里,他与同样从塔楼下来的人建立了简单而有用的沟通。因此,机器翻译的方法也许是从每种语言高塔下降到人类交流的共同基础,比如利用通用的语言逻辑结构来实现两种语言的转化。
以上就是是备忘录的主要内容了,有笔者帮忙总结了一下(The Evolution of Machine Translation | LLM Law Review):
- Using context for homonyms (words with more than one meaning – such as pen or park), in order to determine which definition to use. 利用上下文识别词义
- Using a set of premises from which the computer could use logic to come to a conclusion. 计算机可以根据先验数据和一定的逻辑得出结论
- Using cryptography to decipher texts. 基于密码学破译文本之间的翻译
- Proposing that all languages have linguistic universals, e.g., they all have an alphabet made up of vowels and consonants and all sentences have a structure which contains such parts as verbs and nouns. 所有语言都有共性,比如元音辅音、动词名词结构。
看完以上,联想到后面自然语言处理的各类技术的提出,各位有没有一点点心动呢。
1949年,克劳德香农重新出版《The Mathematical Theory of Communication》,韦弗写了一篇更通俗易懂的文章来讨论香农颇具技术性的工作,旨在翻译听不懂的让大家更好理解。当去看Weaver Memorandum原文时,确实发现能get到他在说什么,get不到也没事:)
韦弗备忘录-Weaver Memorandum原文链接:https://aclanthology.org/1952.earlymt-1.1.pdf;
云盘链接:文件分享
Warren Weaver的百科介绍:https://en.wikipedia.org/wiki/Warren_Weaver