Google translate 与 seq2seq
seq2seq 是 Google translate 使用的技术,它颠覆了传统的自然语言处理。而Google translate 上线的重大意义在于它证明了跨自然语言的可微分的可编辑的语义表征方式。
它怎么做呢?实际上是这么几个步骤:
第一,它把中文词先翻成一个词向量,变成一个数字向量。
第二,它对这个词向量再编辑,变成一个语义表示的方式。
第三,再把它翻译成它的目标语言,也就是英文。
它整个用的技术又称为 encoder(编码) 和decoder(解码),另外一种表示就是sequence to sequence,或者概括说是谷歌翻译的核心技术。
这个地方有几件事情,为什么说谷歌翻译的核心技术是个划时代的?
之前说了三个关键词:一个是“跨自然语言”,第二个是“可微分”,第三个是“可编辑”。上图这个例子是把中文搞成数字语言,再从数字语言翻译成英文。
可以想一想,中文是不是可以翻译成数字语言,再从数字语言翻译成法文呢?当然是可以的。同样的,也可以把现代的白话中文翻译成数字语言,再把它翻译成中国的古汉语文言文。
再给你一段中文的现代文,翻译成数字的语言,再从数字语言可以搞出来一个中心思想,或者说一段中文把它翻译成数字语言,再从数字语言搞成结构化的表格。这就是它的强大所在。