数据处理
首先介绍一下数据集:我们采用THUCNews数据集的子集,这是个链接(提取码:acvu)啦啦啦。完整数据自行去下哦 (地址:http://thuctc.thunlp.org/)~我们来看看这个数据,这个数据格式呢是一个样本是一条新闻,包括类别和内容。首先我们加载数据:
import pandas as pd
import jieba
#%%数据加载
f_train=open('C:/Users/29811/Desktop/NLP/03文本分类/cnews.train.txt',"rt", encoding='utf-8')
f_test=open('C:/Users/29811/Desktop/NLP/03文本分类/cnews.test.txt',"rt", encoding='utf-8')
train=pd.read_table(f_train,names=['类别','内容'])
test=pd.read_table(f_test,names=['类别','内容'