基于LSTM和词嵌入的tweet文本分类

最新推荐文章于 2021-07-09 14:33:22 发布

磐创 AI

最新推荐文章于 2021-07-09 14:33:22 发布

阅读量1.2k

点赞数 6

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fendouaini/article/details/108589371

版权

文章探讨了如何使用fastText和GloVe词嵌入到LSTM模型进行文本分类，通过Kaggle的灾难性推特数据集进行实验，结果显示词嵌入显著提升了模型性能，fastText的准确率为83%，GloVe为81%，而未使用词嵌入的模型准确率为68%。

摘要由CSDN通过智能技术生成

作者|Emmanuella Anggi 编译|VK 来源|Towards Data Science

在这篇文章中，我将详细介绍如何使用fastText和GloVe作单词嵌入到LSTM模型上进行文本分类。

我在写关于自然语言生成的论文时对词嵌入产生了兴趣。词嵌入提高了模型的性能。在本文中，我想看看每种方法（有fastText和GloVe以及不使用）对预测的影响。

在我的Github代码中，我还将结果与CNN进行了比较。我在这里使用的数据集来自Kaggle，由tweets组成，标签是表明推特是否是灾难性推特（描述灾难的推特）。说实话，在第一次看到这个数据集时，我立刻想到了BERT，它的理解能力比我在本文中提出的更好(进一步阅读BERT)。

但无论如何，在本文中，我将重点介绍fastText和GloVe。

数据+预处理

数据包括7613条tweet（Text列）和label（Target列），不管他们是否在谈论真正的灾难。有3271行通知实际灾难，有4342行通知非实际灾难。如果你想了解更多关于数据的信息，可以在这里阅读。

链接：https://www.kaggle.com/c/nlp-getting-started

文本中真实灾难词的例子：

“ Forest fire near La Ronge Sask. Canada “

使用灾难词而不是关于灾难的例子：

“These boxes are ready to explode! Exploding Kittens finally arrived! gameofkittens #explodingkittens”

数据将被分成训练（6090行）和测试（1523行）集，然后进行预处理。我们将只使用文本列和目标列。

from sklearn.model_selection import train_test_split

data = pd.re

最低0.47元/天解锁文章

关注

6
点赞
踩
22

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。