系列文章
Lecture 1: Introduction and Word
Lecture 2: Word Vectors and Word Senses
Lecture 12: Subword Model
1. word-level Model
基于词级的模型,例如Word2Vec,是利用word embedding的方法来得到每一个word的vec,这种方法需要去处理巨大的,开放的词汇表。
但存在一些问题:
- 容易出现单词不存在于词汇库中的情况,也就是 OOV(out-of-vocabulary)
- 非正式拼写
- 拼写错误
- 对名字和地名的音译
容易想到,利用比word更基本的组成来建立模型。
2. Character-Level Modelsel
对比word embedding,character embedding有以下几个优点:
- 解决OOV 问题,为不存在的词生成embedding
- 拼写相似的单词具有相似的 embedding;
有些令人惊讶的是,传统上,音素/字母不是一个语义单元,但在DL模型中却是。
缺点:相比于 word-level , Character-level 的输入句子变长,使得数据变得稀疏,而且对于远距离的依赖难以学到,训练速度降低;
由于这种缺点,对于纯字符级的NMT(神经网络机器翻译模型)来说,最开始表现不佳。但是在2015年之后,逐渐由研究者取得了一些成绩。
比如luong和Manining测试了一个纯字符级的seq2seq(LSTM)NMT系统作为baseline,它和基于word level的模型一样运行的很好,但是在训练时非常耗费时间。下图来是该系统的BLEU(暂未学习)评分:
![](https://i-blog.csdnimg.cn/blog_migrate/72be568d843f78107c40f6645cd7edeb.png)
对于上述缺点,解决实例:
2017年,Jason Lee等人开发出一种(无显式分割的全字符级神经机器翻译)Fully Character-Level Neural