FastText介绍
fastText是一个快速文本分类算法,与基于神经网络的分类算法相比有两大优点:
1、fastText在保持高精度的情况下加快了训练速度和测试速度
2、fastText不需要预训练好的词向量,fastText会自己训练词向量
3、fastText两个重要的优化:Hierarchical Softmax、N-gram
fastText结合了自然语言处理和机器学习中最成功的理念。这些包括了使用词袋以及n-gram袋表征语句,还有使用子字(subword)信息,并通过隐藏表征在类别间共享信息。我们另外采用了一个softmax层级(利用了类别不均衡分布的优势)来加速运算过程。
这些不同概念被用于两个不同任务:
有效文本分类 :有监督学习
FastText原理
包含三部分,模型架构,层次SoftMax,N-gram特征。
1、模型架构
fastText模型架构和word2vec中的CBOW很相似, 不同之处是fastText预测标签而CBOW预测的是中间词,即模型架构类似但是模型的任务不同。
FastText是一个快速文本分类算法,结合词袋和n-gram,利用层次softmax和子字信息,实现高精度且高效的分类。它能自我训练词向量,尤其适合处理罕见词和未登录词,通过构建Huffman树优化层次softmax,提高计算效率。
订阅专栏 解锁全文
865

被折叠的 条评论
为什么被折叠?



