NLP paper精读（六）——Bag of Tricks for Efficient Text Classification

最新推荐文章于 2022-05-11 16:35:05 发布

技术宅zch

最新推荐文章于 2022-05-11 16:35:05 发布

阅读量410

点赞数 1

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_19672707/article/details/96349402

版权

NLP 专栏收录该内容

19 篇文章 2 订阅

订阅专栏

fastText

Abstract
Introduction
Model architecture
- Hierarchical softmax
- N-gram features
Experiment
Discussion and conclusion
一点思考
Reference

Abstract

本文提出了一种简单高效的文本分类基线方法——fastText。实验表明效果与神经网络分类器相同的情况下，fastText的耗时显著降低。

Introduction

最近的文本分类方法都采用基于神经网络的模型，虽然这些模型在实际的表现上非常好，但是他们在训练和测试阶段都非常慢，这就限制了，其应用在超大语料上的可能性。

在文本分类的任务中，线性分类器可以认为是一个强大的基线模型。

在本文的工作中，针对上下文文本分类，我们探寻了将这些基线方法扩展到大语料库和高位输出空间中的方法。

评测方法在命名标签预测和情感分析两种任务上进行。

Model architecture

一种简单的文本分类方法是BoW+线性分类器。然而线性分类器并不能共享特征与类别的参数，所以泛化性很差。

本文提出的模型图如下：
在这里插入图片描述
整个FastText的模型类似于Word2Vec的CBOW模型，但不同点在于embedding的内容有所区别，还有整个任务是在做一个文本分类的任务。

损失函数为：
在这里插入图片描述
其中y为类别标签，x为特征向量，AB均为参数矩阵。A为embedding-table，B为hidden layer 到output layer的参数。

Hierarchical softmax

利用哈夫曼树，加速训练过程。

N-gram features

由于普通词袋模型会忽略词汇与词汇之间的语序信息。所以引入了N-gram的特征。这里只是一个思想，并不确定到底是如何使用哪些特征。

其中N-gram可以是：（我、喜欢、中国）

word-level：我喜欢、喜欢中国
char-level：<我、我>、<喜、喜欢、欢>、<中、中国、国>

Experiment

从以下的实验结果可以看出，在达到深度神经网络的效果下，FastText速度更快，耗时更少。
在这里插入图片描述

Discussion and conclusion

本文，提出了一种简单的文本分类的方法FastText。在许多任务中，在取得与神经网络相同效果的情况下，训练速度提升了很多数量级。

一点思考

fastText和word2vec的区别与联系

相似之处：
1.模型架构类似，都采用了embedding表达。
2.采用了同样的优化方法，层序softmax

不同之处：
1.输出：word2vec输出层对应于每一个词，计算某个词的概率最大。而fasttext输出层对应的是分类标签。
2.输入：word2vec是context window中的词，而fasttext会将整个sentence 或者 documents作为输入，同时还会构造n-gram特征。

Reference

[1] https://www.cnblogs.com/huangyc/p/9768872.html

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
NLP paper精读（六）——Bag of Tricks for Efficient Text Classification

fastTextAbstractIntroductionModel architectureHierarchical softmaxN-gram featuresExperimentDiscussion and conclusion一点思考ReferenceAbstract本文提出了一种简单高效的文本分类基线方法——fastText。实验表明效果与神经网络分类器相同的情况下，fastText的...
复制链接

扫一扫

专栏目录

技术宅zch CSDN认证博客专家 CSDN认证企业博客

码龄10年

79: 原创

5万+: 周排名

42万+: 总排名

29万+: 访问

: 等级

3100: 积分

89: 粉丝

370: 获赞

63: 评论

1078: 收藏

私信

关注

热门文章

分类专栏

最新评论

机器学习，深度学习模型训练阶段的Shuffle重要么？为什么？
新一代图书管理员の养成笔记: 对NN能记住100条数据中前50条和后50条的次序区别存疑：以MLP为例，它内部不存在可以记忆时间的结构，如果前50条和后50条的信息是一模一样的，输入MLP，也将得到一模一样的结果，而如果MLP能记住“第几条数据”这个信息，则不可能得到一模一样的结果，故MLP记不住第几条数据的信息
Python中yield的作用与for循环的区别，yield关键字的白话解析
CSDN-Ada助手: 多亏了你这篇博客, 解决了问题: https://ask.csdn.net/questions/8006779, 请多输出高质量博客, 帮助更多的人
机器学习，深度学习模型训练阶段的Shuffle重要么？为什么？
qiao_yx: 在处理数据集时，是否将不同类别的数据一起做shuffle或分开处理取决于具体的情况和任务要求。将所有数据一起做shuffle然后划分数据集：适用场景：当你希望保持数据的随机性，并且对类别的顺序不敏感时，可以将所有数据合并后进行shuffle，然后再划分成训练集、验证集和测试集等。示例：在一个分类任务中，如果不同类别的数据在训练集和测试集中的分布比例是一样的，那么可以将所有数据合并后进行shuffle。分开类别分别做对应的操作：适用场景：当你希望在数据集的划分或处理过程中保持类别的平衡时，可以先将不同类别的数据分开，然后分别进行shuffle和处理。示例：在一个分类任务中，如果你希望训练集和测试集中的每个类别的样本数量保持大致相等，那么可以先将数据按类别分开，然后分别shuffle，最后再合并成训练集和测试集。具体选择哪种方式取决于任务的要求和数据集的性质。在实践中，可以根据具体情况灵活选择合适的方法。无论选择哪种方式，都要保证数据集的划分和处理是公平、合理的，以保证模型训练和评估的可靠性。
聚类效果评估——轮廓系数（Silhouette Coefficient）附Python代码
Gaowaly: 博主您好，我觉的您好像没有回答为什么轮廓系数可以评价聚类效果的好坏？我有一个答案但不知道准确不准确，可能是由于它同时考虑了聚类的内聚度和分离度，综合考量了样本与所属簇内部的距离和样本与其它簇之间的距离。
TensorFlow1.x入门教程——统领篇
pure-pure: 帮助很大，谢谢博主！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。