NLP十大Baseline论文简述(六) -fasttext

最新推荐文章于 2023-05-10 10:56:27 发布

HHVic

最新推荐文章于 2023-05-10 10:56:27 发布

阅读量323

点赞数

分类专栏： NLP Paper 文章标签：自然语言处理深度学习机器学习

本文链接：https://blog.csdn.net/landian0531/article/details/120737759

版权

NLP Paper 专栏收录该内容

10 篇文章 8 订阅

订阅专栏

文章目录

前言：
目录
1. Paper：
2. 动机介绍
3. 背景介绍
4. 论文摘要
5. 研究成果
6. 研究意义
7. Fasttext模型
8. Fasttext模型优缺点
9. 论文总结

前言：

如果需要对基础概念不了解，可以参考这里。我汇总了论文中涉及的大部分概念，以便更好的理解论文。

1. Paper：

Bag of Tricks for Efficient Text Classification
对于高效文本分类的一揽子技巧

2. 动机介绍

结合深度学习的文本分类模型和机器学习的文本分类模型的优点，达到：

速度快
效果好
自动特征工程

3. 背景介绍

文本分类是自然语言处理的重要任务，可以用于信息检索，网页搜索，文档分类等。
基于深度学习的方法可以达到非常好的效果，但是速度很慢，限制了文本分类的应用。
基于机器学习的线性分类器也很好，有用于大规模分类任务的潜力
从现在词向量学习中得到的灵感，我们提出了一种新的文本分类方法fasttext，这种方法能够快速的训练和测试并且达到和最优效果相似的效果。

4. 论文摘要

This paper explores a simple and efficientbaseline for text classification. 本文探讨了一个简单有效的文本分类基准模型。

Our ex-periments show that our fast text classi-fierfastTextis often on par with deeplearning classifiers in terms of accuracy, andmany orders of magnitude faster for trainingand evaluation. 我们的实验表明，我们的快速文本分类器(fierfasttext)在准确性方面通常与深度学习分类器不相上下，而且在训练和评估方面要快很多个数量级。

We can trainfastTextonmore than one billion words in less than tenminutes using a standard multicore CPU, andclassify half a million sentences among 312Kclasses in less than a minute。
使用一个标准的多核CPU，我们可以在不到十分钟的时间内训练出超过10亿个单词，并在不到一分钟的时间内将50万条句子从312k个类中分类。