Keras深度学习实战——使用fastText模型构建单词向量
0. 前言
fastText
是另一种用于生成单词向量的神经网络模型,其将每个单词视为最小单位,学习其向量表示形式,用于解决由于单词的不同时态和形式造成无法准确获取其向量的问题。本节中,我们将介绍 fastText
算法模型的基本原理,然后使用第三方库 gensim
库中构建 fastText
模型生成单词向量,并测试使用 fastText
模型得到的单词向量效果。
1. fastText 算法模型
fastText
是 Facebook
研究团队提出的算法模型,用于有效学习单词表示和句子分类。fastText
与 word2vec
的不同之处在于 word2vec
将每个单词视为最小单位,学习其向量表示形式,但是 fastText
假定一个单词由 n-gram
组成。例如,sunny
由 [sun, sunn, sunny]
,[sunny, unny, nny]
等组成,在其中我们看到了大小为 n
的原始单词的子集