【NLP】新闻文本分类---FastText

最新推荐文章于 2022-03-05 16:11:19 发布

阿门阿前葡萄树

最新推荐文章于 2022-03-05 16:11:19 发布

阅读量437

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/heanglaxinyi/article/details/107622342

版权

本文介绍了FastText文本分类算法，该算法利用词的Embedding平均得到文本表示，然后通过线性分类器进行分类。FastText在文本分类上优于TF-IDF，其学习的Embedding维度低，训练速度快。通过k折交叉检验调参，随着训练样本增加，模型精度提升，如在5w条训练样本下，验证集得分可达0.89-0.90。

摘要由CSDN通过智能技术生成

【NLP】新闻文本分类---FastText

FastText 文本分类算法介绍

FastText是一种典型的深度学习词向量的表示方法，它非常简单通过Embedding层将单词映射到稠密空间，然后将句子中所有的单词在Embedding空间中进行平均，进而完成分类操作。

所以FastText是一个三层的神经网络，输入层、隐含层和输出层。在这里插入图片描述

xi 表示的是文本中第 i 个词的特征向量，该模型的负对数似然函数如下。下面式子中的矩阵 A 是词查找表，整个模型是查找出所有的词表示之后取平均值，用该平均值来代表文本表示，然后将这个文本表示输入到线性分类器中，也就是输出层的 softmax 函数。式子中的 B 是函数 f 的权重系数
在这里插入图片描述

FastText在文本分类任务上，是优于TF-IDF的：

1.FastText用单词的Embedding叠加获得的文档向量，将相似的句子分为一类
2.FastText学习到的Embedding空间维度比较低，可以快速进行训练

代码实现

train_df['label_ft'

最低0.47元/天解锁文章

阿门阿前葡萄树

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【NLP】新闻文本分类---FastText

【NLP】新闻文本分类---FastTextFastText 文本分类算法介绍代码实现通过k折交叉检验进行调参FastText 文本分类算法介绍FastText是一种典型的深度学习词向量的表示方法，它非常简单通过Embedding层将单词映射到稠密空间，然后将句子中所有的单词在Embedding空间中进行平均，进而完成分类操作。所以FastText是一个三层的神经网络，输入层、隐含层和输出层。xi 表示的是文本中第 i 个词的特征向量，该模型的负对数似然函数如下。下面式子中的矩阵 A 是词查找表，整
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。