【NLP】新闻文本分类---FastText

本文介绍了FastText文本分类算法,该算法利用词的Embedding平均得到文本表示,然后通过线性分类器进行分类。FastText在文本分类上优于TF-IDF,其学习的Embedding维度低,训练速度快。通过k折交叉检验调参,随着训练样本增加,模型精度提升,如在5w条训练样本下,验证集得分可达0.89-0.90。
摘要由CSDN通过智能技术生成

FastText 文本分类算法介绍

FastText是一种典型的深度学习词向量的表示方法,它非常简单通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Embedding空间中进行平均,进而完成分类操作。

所以FastText是一个三层的神经网络,输入层、隐含层和输出层。在这里插入图片描述

xi 表示的是文本中第 i 个词的特征向量,该模型的负对数似然函数如下。下面式子中的矩阵 A 是词查找表,整个模型是查找出所有的词表示之后取平均值,用该平均值来代表文本表示,然后将这个文本表示输入到线性分类器中,也就是输出层的 softmax 函数。式子中的 B 是函数 f 的权重系数
在这里插入图片描述

FastText在文本分类任务上,是优于TF-IDF的:

1.FastText用单词的Embedding叠加获得的文档向量,将相似的句子分为一类
2.FastText学习到的Embedding空间维度比较低,可以快速进行训练

代码实现

train_df['label_ft'
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值