各类词嵌入的优缺点
1 非上下文
(1) Word2Vect
Word2Vec模型可以为一个单词创建相同的表示向量,而不必关心其上下文和含义;其中包括两种模型:跳跃- gram和连续BOW。Skipgram模型表示基于目标词的周围词。CBOW模型使用上下文词来表达目标词。
a. Continuous BOW
优点:简单直接,耗费资源少,在大数据上有效地表示单词的语义
缺点:仅仅考虑了局部语义信息,不能够表示词表以外的单词
b. Skipgram
优点:可以创建具有丰富语义的词语表示;可以捕捉单词之间的相关性
缺点:不能很好地使用全局上下文信息词;无法表示词表以外的词
(2) Glove
GloVe是利用整个语料库中的词出现统计信息,并基于这些统计信息使用神经网络对词进行表示而生成的词表示模型。该模型的思想源于对词语的潜在语义分析。
优点:可以捕获局部和全局上下文信息;有效地表示单词的语义和句法
缺点 :无法表示词表以外的词
(3) FasterText
FastText 通过计算单词中出现的字符 n 元语法嵌入的总和来表示目标单词。在大多数任务中,FastText 模型可以通过主要利用句法信息来创建比 skip-gram 模型更丰富的句法表示。但是&#