FastText模型原理

FastText模型类似于CBOW,利用n-gram特征提高效率,达到与深度学习分类器相当的效果。通过平均文档的n-gram词向量作为其表示,并使用层次softmax进行分类。在词向量训练中,FastText采用NCE loss作为近似softmax的手段,以应对大量类别带来的计算复杂性。
摘要由CSDN通过智能技术生成

FastText简介

预备知识

N-gram模型

对句子或单词的所有长度为N的子句或子字符串进行操作,如2-gram中,对“girl”的字符串为“gi”,“ir”,"rl"进行操作,通常有操作如下:

  • 比较两个单词的相似度,即按照公式根据子字符串的匹配情况计算出相似度,常用于模糊匹配、单词纠错等
  • 评估句子是否合理,将句子定义为N阶马尔科夫链,即 P ( w i ∣ w 1 , w 2 , . . . , w i − 1 ) = P ( w i ∣ w i − N + 1 , . . . , w i − 1 ) ​ P(w_i|w_1,w_2,...,w_{i-1})=P(w_i|w_{i-N+1},...,w_{i-1})​ P(wiw1,w2,...,wi1)=P(wiwiN+1,...,wi1),根据语料库得到的条件概率可求得句子出现在该语料库中的概率,常用于搜索引擎中输入提示、文本自动生成等

CBOW模型

是把单词的高维稀疏的one-hot向量映射为低维稠密的表示的方法。

模型架构如下:

(此处有图)

  • 输入:给定词的上下文共 C C C 个单词,每个单词由 V V V 维的一个1-of-V的向量表示,即

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值