FastText 文本分类使用心得

最新推荐文章于 2024-04-17 12:53:53 发布

thriving_fcl

最新推荐文章于 2024-04-17 12:53:53 发布

阅读量2.4w

点赞数 3

分类专栏：自然语言处理文章标签： CBOW 机器学习 NLP

本文链接：https://blog.csdn.net/thriving_fcl/article/details/53239856

版权

本文分享了使用FastText进行文本分类的实践经验，强调其模型简单、训练速度快的优势。在项目中，FastText实现了高准确率的地址级别分类，并且在处理未登录词和缩写地名时表现良好。相较于深度学习模型，FastText的训练速度显著更快，对于快速建立基准模型十分适用。

摘要由CSDN通过智能技术生成

最近在一个项目里使用了fasttext[1]，这是facebook今年开源的一个词向量与文本分类工具，在学术上没有什么创新点，但是好处就是模型简单，训练速度又非常快。我在最近的一个项目里尝试了一下，发现用起来真的很顺手，做出来的结果也可以达到上线使用的标准。

其实fasttext使用的模型与word2vec的模型在结构上是一样的，拿cbow来说，不同的只是在于word2vec cbow的目标是通过当前词的前后N个词来预测当前词，在使用层次softmax的时候，huffman树叶子节点处是训练语料里所有词的向量。

而fasttext在进行文本分类时，huffmax树叶子节点处是每一个类别标签的词向量，在训练的过程中，训练语料的每一个词也会得到对应的词向量，输入为一个window内的词对应的词向量，hidden layer为这几个词的线性相加，相加的结果作为该文档的向量，再通过层次softmax得到预测标签，结合文档的真实标签计算loss，梯度与迭代更新词向量。

fasttext有别于word2vec的另一点是加了ngram切分这个trick，将长词再通过ngram切分为几个短词，这样对于未登录词也可以通过切出来的ngram词向量合并为一个词。由于中文的词大多比较短，这对英文语料的用处会比中文语料更大。

此外，fasttext相比deep learning模型的优点是训练速度极快。我们目前使用fasttext来进行客户填写的订单地址到镇这一级别的分类。每一个省份建立一个模型，每个模型要分的类别都有1000多类，200万左右的训练数据，12个线程1分钟不到就可以训练完成，最终的分类准确率与模型鲁棒性都比较高(区县级别分类正确准确率高于99.5%，镇级别高于98%)，尤其是对缩写地名，或者