中文文本分类问题:THUCNews数据集
1 THUCNews数据集与预处理
1.1 数据集下载
本文采用了清华NLP组提供的THUCNews新闻文本分类数据集的子集
数据下载链接:
THUCNews数据子集:https://pan.baidu.com/s/1hugrfRu 密码:qfud
1.2 数据量
该数据集使用了其中的10个分类,每个分类6500条,总共65000条新闻数据。
类别如下:
数据集共有三个文件,如下:
cnews.train.txt: 训练集(500010条)
cnews.val.txt: 验证集(50010条)
cnews.test.txt: 测试集(1000*10条)
1.3 数据预处理
1.3.1 导入数据
import pandas as pd
train_data=pd.read_csv('cnews_train.txt',sep='\t',names=['label','content'])
test_data=pd.read_csv('cnews.test.txt',sep='\t',names=['content'])
train_data.info()
前五个数据样本如下:
1.3.2 将文字型的label 转为数字label
def read_category(y_train):
"""读取分类目录,固定"""
categories = ['体育', '财经', '房产', '家居', '教育', '科技', '时尚', '时政', '游戏', '娱乐']
categories = [x for x in categories]
cat_to_id = dict(zip(categories, range(len(categories))))
label_id = []
for i in range(len(y_train)):
label_id.append(cat_to_id[y_train[i]])
return label_id
train_target=train_data['label']
y_label=read_category(train_target)