fastText 训练和使用

最新推荐文章于 2024-04-19 14:58:01 发布

aitie1479

最新推荐文章于 2024-04-19 14:58:01 发布

阅读量522

点赞数

文章标签：人工智能数据结构与算法

原文链接：http://www.cnblogs.com/hyserendipity/p/11492534.html

版权

2019-09-09 16:33:11

问题描述：fastText是如何进行文本分类的。

问题求解：

fastText是一种Facebook AI Research在16年开源的一个文本分类器。其特点就是fast。相对于其它文本分类模型，如SVM，Logistic Regression和neural network等模型，fastText在保持分类效果的同时，大大缩短了训练时间。
fastText专注于文本分类，在许多标准问题上的分类效果非常好。

训练fastText

    trainDataFile = 'train.txt'

    classifier = fasttext.train_supervised(
        input = trainDataFile,
        label_prefix = '__label__',
        dim = 256,
        epoch = 50,
        lr = 1,
        lr_update_rate = 50,
        min_count = 3,
        loss = 'softmax',
        word_ngrams = 2,
        bucket = 1000000)
    classifier.save_model("Model.bin")

在训练fastText的时候有两点需要特别注意，一个是word_ngrams，一个是loss，这两个是fastText的精髓所在，之后会提到。

在使用fastText进行文本训练的时候需要提前分词，这里的ngrams是根据分词的结果来组织架构的；

事实上在训练文本分类的时候有个副产物就是word2vec，fastText在实现文本分类的时候其实和cbow非常类似，就是把word2vec求和之后过了一个fc进行的分类。

使用fastText进行预测

使用fastText进行预测是非常简单的，可以直接使用下述的代码进行预测。

    testDataFile = 'test.txt'

    classifier = fasttext.load_model('Model.bin')  

    result = classifier.test(testDataFile)
    print '测试集上数据量', result[0]
    print '测试集上准确率', result[1]
    print '测试集上召回率', result[2]