中文文本分类问题：THUCNews数据集

最新推荐文章于 2025-04-14 09:36:41 发布

紫砂痕

最新推荐文章于 2025-04-14 09:36:41 发布

阅读量2.6w

点赞数 21

分类专栏： NLP 文章标签： NLP 文本分类

本文链接：https://blog.csdn.net/qq_36047533/article/details/88360833

版权

中文文本分类问题：THUCNews数据集

1 THUCNews数据集与预处理
2 特征工程
- 2.1 Jieba分词
- 2.2 TF-IDF并将文件保存至本地
3 训练模型
- 3.1 lightgbm模型
- - 3.1.1 无Jieba分词直接TF-IDF后训练模型的结果
  - 3.1.2 含Jieba分词直接TF-IDF后训练模型的结果
4 K 折交叉验证
参考链接

1 THUCNews数据集与预处理

1.1 数据集下载

本文采用了清华NLP组提供的THUCNews新闻文本分类数据集的子集
数据下载链接：
THUCNews数据子集：https://pan.baidu.com/s/1hugrfRu 密码：qfud

1.2 数据量

该数据集使用了其中的10个分类，每个分类6500条，总共65000条新闻数据。
类别如下：在这里插入图片描述
数据集共有三个文件，如下：
cnews.train.txt: 训练集(500010条)
cnews.val.txt: 验证集(50010条)
cnews.test.txt: 测试集(1000*10条)

1.3 数据预处理

1.3.1 导入数据

import pandas as pd
train_data=pd.read_csv('cnews_train.txt',sep='\t',names=['label','content'])
test_data=pd.read_csv('cnews.test.txt',sep='\t',names=['content'])
train_data.info()

在这里插入图片描述
前五个数据样本如下：

1.3.2 将文字型的label 转为数字label

def read_category(y_train):
    """读取分类目录，固定"""
    categories = ['体育', '财经', '房产', '家居', '教育', '科技', '时尚', '时政', '游戏', '娱乐']
    categories = [x for x in categories]
    cat_to_id = dict(zip(categories, range(len(categories))))
    label_id = []
    for i in range(len(y_train)):
        label_id.append(cat_to_id[y_train[i]])
    return label_id
    
train_target=train_data['label']  
y_label=read_category(train_target)

在这里插入图片描述