FastText算法调研

最新推荐文章于 2024-09-08 14:29:16 发布

舟

最新推荐文章于 2024-09-08 14:29:16 发布

阅读量1.4k

点赞数

分类专栏：数据挖掘/机器学习

本文链接：https://blog.csdn.net/cqlboat/article/details/81255398

版权

FastText是Facebook开源的文本分类和词向量工具，以其高效训练和良好性能受到关注。它通过字符级n-gram和分层softmax提高模型效率，适用于大规模文本分类任务。此外，FastText利用哈希技巧处理大量n-gram，降低内存需求。

摘要由CSDN通过智能技术生成

介绍
字符级别的n-gram
模型架构
分层softmax分类
- 例子
Hashing Tricks
结论和思考
参考

介绍

FastText是Facebook于2016年开源的一个词向量计算和文本分类工具，在学术上并没有太大创新。但是它的优点也非常明显，在文本分类任务中，fastText（浅层网络）往往能取得和深度网络相媲美的精度，却在训练时间上比深度网络快许多数量级。在标准的多核CPU上，能够训练10亿词级别语料库的词向量在10分钟之内，能够分类有着30万多类别的50多万句子在1分钟之内。

Fasttext主要有两个功能，一个是训练词向量，另一个是文本分类。词向量的训练，相对于word2vec来说，增加了subwords特性。

fastText的核心思想是：将整篇文档的词及n-gram向量叠加平均得到文档向量，然后使用文档向量做softmax多分类。这中间涉及到两个技巧：字符级n-gram特征的引入以及分层Softmax分类。

字符级别的n-gram

大多数现有的方法用一个唯一的向量表示，且参数不共享，忽略了词语内部的结构，这对那些多种形态的语言有很大限制。

word2vec把语料库中的每个单词当成原子的，它会为每个单词生成一个向量。这忽略了单词内部的形态特征，比如：“apple” 和“apples”，两个单词都有较多公共字符，即它们的内部形态类似，但是在传统的word2vec中，这种单词内部形态信息因为它们被转换成不同的id丢失了。

为了克服这个问题，fastText使用了字符级别的n-grams来表示一个单词。对于单词“apple”，假设n的取值为3，则它的trigram有
“<script type="math/tex" id="MathJax-Element-3"><</script>ap”, “app”, “ppl”, “ple”, “le $>$ ”