【NLP pytorch】基于BERT_TextCNN新闻文本分类实战(项目详解)

本文介绍了一个基于BERT和TextCNN的新闻文本分类项目,详细讲解了数据预处理、BERT模型的使用、TextCNN模型定义、训练与优化、模型测试和预测。项目使用THUCNews数据集,通过HuggingFace加载预训练模型,处理文本长度以适应TextCNN,探讨了等长处理的原因。在训练中,讨论了模型训练速度、内存管理、模型准确率等问题,并实现了模型部署。
摘要由CSDN通过智能技术生成

1 数据集介绍

1)数据集:清华大学的 THUCNews 新闻文本分类数据集,训练集18w,验证集1w,测试集1w

2)10个类别:金融、房产、股票、教育、科学、社会、政治、体育、游戏、娱乐

2 模型介绍

选用的是 TextCNN 这个模型,来完成分类任务,并不是说只能用 TextCNN,选用其他模型比如 RNN、LSTM 都是可以的。请添加图片描述

3 数据预处理

这部分有两个任务,一是导入数据集,二是要统计待分类的文本长度,因为 TextCNN 在卷积之后,要做批量最大池化操作,所以要求文本长度一致,不够的填充PAD,太长的要进行截取。

3.1 数据集加载

新建一个data文件夹,然后在其下面创建input文件夹,放置下载的数据(数据下载地址:http://thuctc.th

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

lys_828

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值