【NLP】新闻文本分类---FastText
FastText 文本分类算法介绍
FastText是一种典型的深度学习词向量的表示方法,它非常简单通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Embedding空间中进行平均,进而完成分类操作。
所以FastText是一个三层的神经网络,输入层、隐含层和输出层。
xi 表示的是文本中第 i 个词的特征向量,该模型的负对数似然函数如下。下面式子中的矩阵 A 是词查找表,整个模型是查找出所有的词表示之后取平均值,用该平均值来代表文本表示,然后将这个文本表示输入到线性分类器中,也就是输出层的 softmax 函数。式子中的 B 是函数 f 的权重系数
FastText在文本分类任务上,是优于TF-IDF的:
1.FastText用单词的Embedding叠加获得的文档向量,将相似的句子分为一类
2.FastText学习到的Embedding空间维度比较低,可以快速进行训练
代码实现
train_df['label_ft'