NLP实战 -中文文本分类问题：THUCNews数据集

最新推荐文章于 2025-03-28 09:34:35 发布

紫砂痕

最新推荐文章于 2025-03-28 09:34:35 发布

阅读量8.6k

点赞数 8

分类专栏： NLP 文章标签： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36047533/article/details/88094385

版权

中文文本分类问题：THUCNews数据集

1 THUCNews数据集与预处理
2 特征向量化
- 2.1 TF-IDF
3 情感分析
4 模型搭建
- 4.1 CNN模型
- 4.2 RNN模型
5 参考

1 THUCNews数据集与预处理

1.1 数据集下载

本文采用了清华NLP组提供的THUCNews新闻文本分类数据集的子集
数据下载链接：
THUCNews数据子集：https://pan.baidu.com/s/1hugrfRu 密码：qfud

1.2 数据量

该数据集使用了其中的10个分类，每个分类6500条，总共65000条新闻数据。
类别如下：在这里插入图片描述
数据集共有三个文件，如下：
cnews.train.txt: 训练集(500010条)
cnews.val.txt: 验证集(50010条)
cnews.test.txt: 测试集(1000*10条)

1.3 预处理

data/cnews_loader.py为数据的预处理文件。

read_file(): 读取文件数据;
build_vocab(): 构建词汇表，使用字符级的表示，这一函数会将词汇表存储下来，避免每一次重复处理;
read_vocab(): 读取上一步存储的词汇表，转换为{词：id}表示;
read_category(): 将分类目录固定，转换为{类别: id}表

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。