那些年,不得不提的韦弗备忘录(Weaver Memorandum)

近代自然语言处理的发家史可以从1940年代那阵子开始算,为啥这么说,主要是想介绍一下1949年的这个韦弗备忘录(Weaver Memorandum)。首先,我们来看看大家是怎么评价这个Weaver Memorandum的:

看到上面描粗的语句,可以发现Weaver Memorandum算是机器翻译任务的理论缘起,一石激起千层浪,就是这个feel了。这个备忘录的撰稿人是Warren Weaver,美国科学家、数学家,也是早期机器翻译研究者之一。第二次世界大战的时候,他将数学和统计技术应用在密码学上,即破译敌人的信息。战争期间,整个密码学领域都处于保密状态,但是不难猜想,解密过程会利用字母的频率、字母组合、字母和字母组合之间的间隔、字母模式等,这些在某种程度上与所使用的语言无关。 这立即导致人们假设,在人类发明和发展语言的多元化情况下,存在某些不变的属性,这些属性虽然不精确,但在从统计学的角度来看,是所有语言所共有的。

另外,由于韦弗在战争期间大量接触计算机设计问题,意识到现代电子计算机的速度、容量和逻辑灵活性棒棒棒,他想到了将这种计算机用于翻译的可能性。1948年的时候韦弗拜访了一个计算机实验室,并和几个研究人员讨论了处理单个单词的机器翻译,他们当时的套路是:首先“感知/sense”一个单词的字母组合,然后让机器看看它的内存是否恰好包含有问题的单词。 如果是这样,机器只会生成该单词的翻译。 如果内存中不包含这个确切的单词,机器会丢弃该单词的最后一个字母,然后重试。 如果失败,它会继续丢弃另一个字母,然后重试。 当它找到字典中最长的初始字母组合后,再去检索整个被丢弃的部分。比如running,系统会先找到run,然后找出ing对run的作用。但是这样的翻译并不足够,比如一词多义等情况。于是乎,韦弗在名为Translation的备忘录里阐述了更多想法,这边介绍几处备忘录里的原文。

  • 含义和上下文

对于一词多义的情况,假设我们透过一个不透明的纸看书,纸上有一个单词宽的洞。看书的时候,一个一个单词看过去,显然不可能一次一个地确定单词的含义,比如苹果可能是手机品牌也可能是水果,是需要苹果这个词的上下文才能判断的。因此,如果我们让露出单词的洞变长,不仅可以看到苹果,还能看到苹果两侧的N个词时,就能大致判断出苹果指的是手机品牌还是水果。备忘录里还简单讨论了一下N该怎么设置,具体就不展开了详见原文。在2013年提出的词向量模型word2vec里就有一个参数,在gensim包里叫做window,下面是该参数的定义:

window (int, optional) – Maximum distance between the current and predicted word within a sentence.

怎么样,是不是有那味儿了。

  • 语言和逻辑

这一段主要想讲两点:a robot (or a computer) constructed with regenerative loops of a certain formal character is capable of deducing any legitimate conclusion from a finite set of premises. 用具有某种形式特征的再生循环构建的机器人(或计算机)能够从一组有限的前提中推导出任何合法的结论。written language is an expression of logical character,语言中是存在逻辑元素的,书面语言是逻辑符号的表达。因此,机器翻译是可行的。这里不得不想到,不同语言都是有语法结构和语法规则的,比如主谓宾这种就可以用一些语义角色标签来表示。

  • 翻译和密码学

克劳德·香农 (Claude Shannon) 发表的关于通信数学理论的著作,源于通信过程的统计特征。 他的理论也被用于密码学的应用。假设,我们把用中文写的书看作是“一本用英文写的书,但是编码成了中国编码”,如果密码学的问题已经有很好的解决方案,我们是不是也可以用来解决翻译的问题了呢?这里提到了两点,一个是密码破译的方法可能适用于翻译任务,另外,可以通过挖掘语言的统计特征来解决问题。这里不得不提到统计自然语言处理,研究人员会搜集一些文本然后以此作为构建统计模型的基础。比如要分析不同的写作风格,我们可以统计词语出现的频率,词语长度的分布或者句子长度的分布。再复杂一些,比如用条件随机场算法(Conditional Random Field,简称CRF)可以进行命名实体识别。而神经网络模型,也是需要大量数据来预测输出的概率。以文本为例,数据是非常多不同词语的排列组合,包含了相当多需要学习并拟合的统计信息。

  • 语言和不变量

这里韦弗打了个比方:假设不同语言的人是居住在不同封闭的高塔中的人,但是所有塔都建在一个共同的基础上。 当他们试图互相交流时,会在各自封闭的塔楼里来回喊叫。 即使是最近的塔楼也很难让声音穿透,而且通讯效果确实很差。 但是,当一个人走下他的塔楼时,他发现自己身处一个巨大的开放式地下室,所有塔楼都是共用的。 在这里,他与同样从塔楼下来的人建立了简单而有用的沟通。因此,机器翻译的方法也许是从每种语言高塔下降到人类交流的共同基础,比如利用通用的语言逻辑结构来实现两种语言的转化。

以上就是是备忘录的主要内容了,有笔者帮忙总结了一下(The Evolution of Machine Translation | LLM Law Review):

  • Using context for homonyms (words with more than one meaning – such as pen or park), in order to determine which definition to use. 利用上下文识别词义
  • Using a set of premises from which the computer could use logic to come to a conclusion. 计算机可以根据先验数据和一定的逻辑得出结论
  • Using cryptography to decipher texts. 基于密码学破译文本之间的翻译
  • Proposing that all languages have linguistic universals, e.g., they all have an alphabet made up of vowels and consonants and all sentences have a structure which contains such parts as verbs and nouns. 所有语言都有共性,比如元音辅音、动词名词结构。

看完以上,联想到后面自然语言处理的各类技术的提出,各位有没有一点点心动呢。

1949年,克劳德香农重新出版《The Mathematical Theory of Communication》,韦弗写了一篇更通俗易懂的文章来讨论香农颇具技术性的工作,旨在翻译听不懂的让大家更好理解。当去看Weaver Memorandum原文时,确实发现能get到他在说什么,get不到也没事:)

韦弗备忘录-Weaver Memorandum原文链接:https://aclanthology.org/1952.earlymt-1.1.pdf

云盘链接:文件分享

Warren Weaver的百科介绍:https://en.wikipedia.org/wiki/Warren_Weaver

  • 24
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值