CS224N Subword Models

1.有关语言学(linguistics)的启发

  • 语音学(Phonetics)是一种非常基本的理论,只要是正常人,有着相同的人体器官和相同的发声结构,就会遵循着相同的发声规则和原理。
  • 语音体系(Phonology)是有语义的声音的合集,各国各文明的人都会制定自己的语音体系。
  • 音素(Phoneme)是语音中划分出来的最小的语音单位,分为元音和辅音
    国际音标(由音素构成)按理来说可以表示所有的语音,但是会发现好多语音是没有语义的,这时我们采取的办法就是看音素的下一级(part of words)。

unfortunate代表没有语义,需要找下一级

同样的思想我们可以用在深度学习上,如果我们在做翻译任务(Neural Machine Translation)时发现一些没有含义的单词(也就是不在词汇库中的单词),我们可以通过找比单词更基本的成分来解决问题。

现实生活中做翻译任务时我们确实需要处理很大的,很开放的词汇(所以上述讨论是有意义的):

  • 非常丰富的词形
  • 音译的单词(例如人名)
  • 非正式的拼写(gooooooood和u分别是good和you的informal spell)

2.字符级模型(Character-Level Model)

有了上面的分析,我们可以想到,使用比word更基本的组成来做NMT任务,于是首先我们很容易想到字符级的模型。我们有两种方法来实现字符级的模型:

  • 先生成character-embedding, 然后为那些没出现在词汇库中的单词(out of vocabulary后面用OOV表示)生成word-embedding, 即使用character-embedding来组成word-embedding以解决OOV问题。
  • 直接把语言当成字符处理,只生成character-embedding,不考虑word级别。

这两种方法都被证明是成功的。后续也有很多的工作使用字符级的模型来解决NMT任务。但这些任务有一些共同的缺点,由于从单词替换成字符导致处理的序列变长,速度变慢;由于序列变长,数据变得稀疏,数据之间的联系的距离变大,不利于学习。于是2017年,Jason Lee, Kyunghyun Cho, Thomas Hoffmann发表了论文Fully Character-Level Neural Machine Translation without Explicit Segmentation 解决了这些问题。

输入的character首先做一个embedding, 然后分别与大小为3,4,5的filter进行卷积运算,就相当于3-grams, 4-grams和5-grams。之后进行max-pooling操作,相当与选出了有语义信息的segment-embedding。之后将这些embedding送入Highway Network(相当于resnet, 解决了深层神经网络不容易训练的问题)后再通过一个单层的双向GRU,得到最终的encoder的output。之后经过一个character-level的GRU(作为decoder)得到最终结果。

3.Subword Model: Byte Pair Encoding

所谓subword,就是取一个介于字符和单词之间成分为基本单元建立的模型。而所谓Byte Pair Encoding(一下简称BPE),就是寻找经常出现在一起的Byte对,合并成一个新的Byte加入词汇库中。即若给定了文本库,若我们的初始词汇库包含所有的单个字符,则我们会不断的将出现频率最高的n-gram的pair作为新的n-gram加入词汇库中,直到达到我们的要求。

下面举一个例子,比如有一个初始的文本库和词汇库如下。
在这里插入图片描述

可见此时出现频率最高的n-gram pair是“e,s”,出现了9次,因此我们将“es”作为新词加入到词汇库中同时更新文本库。此时词汇库和文本库如下。
在这里插入图片描述

这时词汇库中出现频率最高的n-gram pair是“es,t”,出现了9次,因此我们将“est”加入词汇库中同时更新文本库。此时词汇库和文本库如下。

在这里插入图片描述
依次类推,可以逐渐的通过增加新的n-gram的方式达到我们的目标。对于现实生活中有很多词汇量非常大的task,这种通过BPE逐步建立词汇库的方式就显得非常有用了。

Google 的NMT模型也是从BPE演化而来,一个叫wordpiece model,一个叫sentencepiece model。其中wordpiece model每次不是选取出现频率最高的n-gram, 而是每次选取能使得其所使用的语言模型的复杂度减少最多的n-gram。而sentencepiece model则是将词与词之间的空白也作为一种单词,这样整个sentence就可以直接进行处理而不需要预处理成单词后再embedding。

4. Hybrid character and word-level models

核心思想:大部分时候都使用word-level的模型来做translate,只有在遇到rare or unseen的words的时候才会使用character-level的模型协助。这种做法产生了非常好的效果。

比如该例子中,若cute是一个out of vocabulary的单词,我们就需要使用character-level的模型去处理。在decode过程中,如果发现,说明需要character-level的decode, 最后的损失函数是word-level部分和character-level部分的加权叠加。

同时,值得一提的是decoding过程中,在word-level部分和character-level部分均使用了beam search的方法,选取topK可能性的字符或单词。

这种混合模型在WMT’15的库上取得了SOTA的结果。

  1. FastText
    我们知道在word2vec方法中我们基于word-level的模型来得到每一个单词的embedding,但是对于含有许多OOV单词的文本库word2vec的效果并不好。由此很容易联想到,如果将subword的思想融入到word2vec中是不是会产生更好的效果呢?

FastText方法就是汲取了subword的思想,它将每个单词转变为对于character的n-gram和该单词本身的集合。例如,对于单词“”,以及n=3。

则集合可以表示为{<wh,whe,her,ere,re>,}(其中<>代表单词的开始与结束)。对于每个单词 w w w ,其对应集合可用 G w G_w Gw来表示。设该集合每个n-gram表示为 Z g Z_g Zg,则每个单词可以表示为其所有n-gram矢量和的形式,则center word和context word 间的相似度可表示为

[公式]

的形式,于是就可以使用原有的word2vec算法来训练得到对应单词的embedding。其保证了算法速度快的同时,解决了OOV的问题,是很好的算法.

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值