文本预处理
1、数据读取
数据是来自网易新闻文本。文本中有2万4千条新闻样本,一共有六个不同的新闻种类,有:体育、文化、经济、医疗、汽车、军事,直接用python3的pickle.load()该文件即可,是2万4千个文本样本的数据集合,该数据的每一行是一个元组,元组的第一个下标元素代表的是新闻文本数据,另一个代表的是该文本数据的分类。
2、数据处理
2-1分词
利用jieba对文章分词。
2-2清除停用词
对jieba导入停用词库(可自定义),去除分词文本中的噪音词,包括:字符、无价值词语等。