本系列分为四部分,这篇文章是本系列第三篇,在公众号上有写过:word embedding系列(三) FastText,现在搬到CSDN上~
欢迎关注我的公众号,微信搜 algorithm_Tian 或者扫下面的二维码~
现在保持每周更新的频率,内容都是机器学习相关内容和读一些论文的笔记,欢迎一起讨论学习~
fastText 是 facebook 开源的一个词向量计算以及文本分类工具,fastText 方法包含三部分:模型架构、层次 Softmax 和 N-gram 特征。
该工具的理论基础是以下两篇论文:
Enriching Word Vectors with Subword Information 词向量(n-gram subword+skip-gram)
Bag of Tricks for Efficient TextClassification 分类(cbow+h softmax)
本篇文章分为三部分来介绍fasttext:
由于fasttext基本就是基于word2vec,所以本文就不介绍详细公式,只讲与word2vec不同的地方。如果想看公式推导,可以参考上一篇文章