基于LSTM和词嵌入的tweet文本分类

文章探讨了如何使用fastText和GloVe词嵌入到LSTM模型进行文本分类,通过Kaggle的灾难性推特数据集进行实验,结果显示词嵌入显著提升了模型性能,fastText的准确率为83%,GloVe为81%,而未使用词嵌入的模型准确率为68%。
摘要由CSDN通过智能技术生成

作者|Emmanuella Anggi 编译|VK 来源|Towards Data Science

在这篇文章中,我将详细介绍如何使用fastText和GloVe作单词嵌入到LSTM模型上进行文本分类。

我在写关于自然语言生成的论文时对词嵌入产生了兴趣。词嵌入提高了模型的性能。在本文中,我想看看每种方法(有fastText和GloVe以及不使用)对预测的影响。

在我的Github代码中,我还将结果与CNN进行了比较。我在这里使用的数据集来自Kaggle,由tweets组成,标签是表明推特是否是灾难性推特(描述灾难的推特)。说实话,在第一次看到这个数据集时,我立刻想到了BERT,它的理解能力比我在本文中提出的更好(进一步阅读BERT)。

但无论如何,在本文中,我将重点介绍fastText和GloVe。


数据+预处理

数据包括7613条tweet(Text列)和label(Target列),不管他们是否在谈论真正的灾难。有3271行通知实际灾难,有4342行通知非实际灾难。如果你想了解更多关于数据的信息,可以在这里阅读。

链接:https://www.kaggle.com/c/nlp-getting-started

文本中真实灾难词的例子:

“ Forest fire near La Ronge Sask. Canada “

使用灾难词而不是关于灾难的例子:

“These boxes are ready to explode! Exploding Kittens finally arrived! gameofkittens #explodingkittens”

数据将被分成训练(6090行)和测试(1523行)集,然后进行预处理。我们将只使用文本列和目标列。

from sklearn.model_selection import train_test_split

data = pd.re
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值