天池：新闻文本分类-NLP实践Note-04

最新推荐文章于 2021-08-31 11:03:49 发布

浩浩雷

最新推荐文章于 2021-08-31 11:03:49 发布

阅读量415

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/u014454827/article/details/107895136

版权

本文介绍了FastText的原理和在文本分类中的应用，包括其优于TF-IDF的优势。通过调整参数如epoch和学习率，以及使用word n-grams，可以优化模型性能。通过10折交叉验证进行调参，以达到更好的文本分类效果。

摘要由CSDN通过智能技术生成

基于深度学习的文本分类01

学习目标
文本表示方法
- FastText
- 部分API参数：
文本分类
优化
- 如何使用验证集调参
- 其他优化方法技巧 Making the model better
本章小结
参考

与传统机器学习不同，深度学习既提供特征提取功能，也可以完成分类的功能。从本章开始我们将学习如何使用深度学习来完成文本表示。

学习目标

学习FastText的使用和基础原理
学会使用验证集进行调参

文本表示方法

之前介绍几种文本表示方法：

One-hot
Bag of Words
N-gram
TF-IDF

也通过sklean进行了相应的实践，相信你也有了初步的认知。但上述方法都或多或少存在一定的问题：转换得到的向量维度很高，需要较长的训练实践；没有考虑单词与单词之间的关系，只是进行了统计。

与这些表示方法不同，深度学习也可以用于文本表示，还可以将其映射到一个低纬空间。其中比较典型的例子有：FastText、Word2Vec和Bert。在本章我们将介绍FastText，将在后面的内容介绍Word2Vec和Bert。

FastText

参考论文：Bag of Tricks for Efficient Text Classification, https://arxiv.org/abs/1607.01759.

FastText是一种典型的深度学习词向量的表示方法，它非常简单通过Embedding层将单词映射到稠密空间，然后将句子中所有的单词在Embedding空间中进行平均，进而完成分类操作。

所以FastText是一个三层的神经网络，输入层、隐含层和输出层。
在这里插入图片描述
FastText在文本分类任务上，是优于TF-IDF的：

FastText用单词的Embedding叠加获得的文档向量，将相似的句子分为一类
FastText学习到的Embedding空间维度比较低，可以快速进行训练

部分API参数：

train_unsupervised parameters

input             # training file path (required)
model             # unsupervised fasttext model {cbow, skipgram} [skipgram]
lr                # learning rate [0.05]
dim               # size of word vectors [100]
ws                # size of the context window [5]
epoch             # number of epochs [5]
minCount          # minimal number of word occurences [5]
minn              # min length of char ngram [3]
maxn              # max length of char ngram [6]
neg               # number of negatives sampled [5]
wordNgrams        # max length of word ngram [1]
loss              # loss function {ns, hs, softmax, ova} [ns]
bucket            # number of buckets [20