NLP---FastText

最新推荐文章于 2021-09-15 18:52:11 发布

ortyi

最新推荐文章于 2021-09-15 18:52:11 发布

阅读量241

点赞数

分类专栏： NLP 文章标签： nlp

本文链接：https://blog.csdn.net/ortyijing/article/details/96870162

版权

17 篇文章 0 订阅

订阅专栏

参考：https://blog.csdn.net/sinat_26917383/article/details/54850933
https://www.leiphone.com/news/201608/y8rhWEglraduqcOC.html

1. 简介

fastText是Facebook于2016年开源的一个文本分类器。
显著特点：快而且准确率高。相对于其它文本分类模型，如SVM，Logistic Regression和neural network等模型，fastText在保持分类效果的同时，大大缩短了训练时间。实验表明 fastText 在准确率上与深度学习分类器具有同等水平，特别是在训练和评估速率上要高出几个数量级。使用 fastText能够将训练时间从几天降至几秒，并且在许多标准问题上是当下最好的表现（例如文本倾向性分析或标签预测）。在使用标准多核CPU的情况下10分钟内处理超过10亿个词汇。
用途：文本分类；学习词向量表征。
关于fastText的两篇论文：
a. Bag of Tricks for Efficient Text Classification (高效文本分类技巧)；
b. Enriching Word Vectors with Subword Information (使用子字信息丰富词汇向量)

输入一个词的序列（一段文本或者一句话)，输出这个词序列属于不同类别的概率。序列中的词和词组组成特征向量，特征向量通过线性变换映射到中间层，中间层再映射到标签，预测标签时使用非线性激活函数。

fastText 模型架构和 Word2Vec 中的 CBOW 模型很类似。不同之处在于，fastText 预测标签，而 CBOW 模型预测中间词。在实现过程中fastText也使用了一些非常棒的技巧：Hierarchical softmax，n-gram，subword。因此，本文通过这些技巧来了解FastText。

参考https://www.cnblogs.com/pinard/p/7160330.html
以上链接有非常详细的介绍和推导，也非常易于理解。

参考：https://cloud.tencent.com/developer/article/1080923

字粒度的n-gram（或字符级n-gram）：
例如“我在学习自然语言处理”这句话，
unigram为：我在学习自然语言处理，有10个。
bigram为：我在在学学习习自自然然语语言言处处理，有9个。
词粒度的n-gram：
例如“我在学习自然语言处理”这句话，
unigram为：我在学习自然语言处理
bigram为：我 $/$ 在在 $/$ 学习学习 $/$ 自然自然 $/$ 语言语言 $/$ 处理
字符级n-gram的优点：
a. 对于低频词生成的词向量效果会更好。因为它们的n-gram可以和其它词共享。
b. 对于训练词库之外的单词，仍然可以构建它们的词向量。我们可以叠加它们的字符级n-gram向量。

参考：https://cloud.tencent.com/developer/article/1080923

fastText从输入层输入到隐含层输出部分，主要在做一件事情：生成用来表征文档的向量。那么它是如何做的呢？-----叠加构成这篇文档的所有词及n-gram的词向量，然后取平均。叠加词向量背后的思想就是传统的词袋法，即将文档看成一个由词构成的集合。

这个技巧应该就是字符级的n-gram。

参考：https://cloud.tencent.com/developer/article/1080923

不同之处
(1) CBOW的输入是目标单词的上下文，fastText的输入是多个单词及其n-gram特征，这些特征用来表示单个文档。
(2) CBOW的输入单词被onehot编码过，fastText的输入特征是被embedding过。
(3) CBOW的输出是目标词汇，fastText的输出是文档对应的类标，这也导致哈夫曼树的建立不同，CBOW根据语料库中每个词的出现次数，fastText根据每个类别的出现次数。
相同之处
(1) Hierarchical softmax训练过程的相关公式推导基本一致。