自然语言处理(NLP)之路——概念理解——从 Google translate 的 seq2seq 看自然语言处理(NLP)的发展

Google translate 与 seq2seq

seq2seq 是 Google translate 使用的技术,它颠覆了传统的自然语言处理。而Google translate 上线的重大意义在于它证明了跨自然语言可微分可编辑的语义表征方式。

它怎么做呢?实际上是这么几个步骤:

第一,它把中文词先翻成一个词向量,变成一个数字向量。

第二,它对这个词向量再编辑,变成一个语义表示的方式。

第三,再把它翻译成它的目标语言,也就是英文。

它整个用的技术又称为 encoder(编码) 和decoder(解码),另外一种表示就是sequence to sequence,或者概括说是谷歌翻译的核心技术。

这个地方有几件事情,为什么说谷歌翻译的核心技术是个划时代的?

之前说了三个关键词:一个是“跨自然语言”,第二个是“可微分”,第三个是“可编辑”。上图这个例子是把中文搞成数字语言,再从数字语言翻译成英文。

可以想一想,中文是不是可以翻译成数字语言,再从数字语言翻译成法文呢?当然是可以的。同样的,也可以把现代的白话中文翻译成数字语言,再把它翻译成中国的古汉语文言文。

再给你一段中文的现代文,翻译成数字的语言,再从数字语言可以搞出来一个中心思想,或者说一段中文把它翻译成数字语言,再从数字语言搞成结构化的表格。这就是它的强大所在。

Seq2Seq

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值