FastText简介
预备知识
N-gram模型
对句子或单词的所有长度为N的子句或子字符串进行操作,如2-gram中,对“girl”的字符串为“gi”,“ir”,"rl"进行操作,通常有操作如下:
- 比较两个单词的相似度,即按照公式根据子字符串的匹配情况计算出相似度,常用于模糊匹配、单词纠错等
- 评估句子是否合理,将句子定义为N阶马尔科夫链,即 P ( w i ∣ w 1 , w 2 , . . . , w i − 1 ) = P ( w i ∣ w i − N + 1 , . . . , w i − 1 ) P(w_i|w_1,w_2,...,w_{i-1})=P(w_i|w_{i-N+1},...,w_{i-1}) P(wi∣w1,w2,...,wi−1)=P(wi∣wi−N+1,...,wi−1),根据语料库得到的条件概率可求得句子出现在该语料库中的概率,常用于搜索引擎中输入提示、文本自动生成等
CBOW模型
是把单词的高维稀疏的one-hot向量映射为低维稠密的表示的方法。
模型架构如下:
(此处有图)
- 输入:给定词的上下文共 C C C 个单词,每个单词由 V V V 维的一个1-of-V的向量表示,即