FastText的内部机制

最新推荐文章于 2024-04-17 12:53:53 发布

磐创 AI

最新推荐文章于 2024-04-17 12:53:53 发布

阅读量2.8k

点赞数 1

分类专栏：机器学习人工智能

本文链接：https://blog.csdn.net/fendouaini/article/details/81086575

版权

本文详细解析了FastText的内部工作原理，包括如何使用命令行训练Skip-gram模型，如何通过字符n-grams提升表示能力，以及数据读取、表示方法和训练过程的细节。FastText利用字符级n-grams处理罕见词，支持多种损失函数和模型，其训练过程涉及负采样、动态词频过滤和多线程优化。

摘要由CSDN通过智能技术生成

文章来源：https://towardsdatascience.com/fasttext-under-the-hood-11efc57b2b3

译者 | Revolver

fasttext是一个被用于对词向量和句子分类进行高效学习训练的工具库，采用c++编写，并支持训练过程中的多进程处理。你可以使用这个工具在监督和非监督情况下训练单词和句子的向量表示。这些训练出来的词向量，可以应用于许多处理数据压缩的应用程序，或者其他模型的特征选择，或者迁移学习的初始化。

FastText支持使用negative sampling，softmax或层次softmax损失函数等方法来训练CBOW或Skip-gram模型。我已经使用了fastText对一个规模有千万个单词的语料库进行语义词向量训练，对于它的表现以及它对原任务的扩展，我都感到非常满意。在此之前，我很难找到除了 getting started之外的关于fasttext的相关说明文档，因此在这篇文章中，我将带您了解fastText的内部原理以及它是如何工作的。对word2vec模型如何工作的理解是需要的，克里斯·麦考密克的文章（见链接）很好地阐述了word2vec模型。

一、运行fasttext

我们可以通过下面这条命令来用fastText训练一个Skip-gram模型:

$ fasttext skipgram -input data.txt -output model

data.txt是一个包含一串文本序列的输入文件，输出模型保存在model.bin文件下，词向量则保存在model.vec中。

二、表示方法

fasttext可以在词向量的训练和句子分类上取得非常好的表现，尤其表现在对罕见词进行了字符粒度上的处理。

每个单词除了单词本身外还被表示为多个字符级别的n-grams（有时也称为N元模子）。例如，对于单词matter，当n = 3时，fasttext对该词对字符ngram就表示为<ma, mat, att, tte, ter, er>。其中<和>是作为边界符号被添加，来将一个单词的ngrams与单词本身区分开来。再举个例子，如果单词mat属