基于 nltk 模块中的朴素贝叶斯模型的文本分类任务
前言
基于 nltk 模块中的朴素贝叶斯模型的文本分类任务:文本共包含七个类别,每个类别包含200个文本。
一、安装并导入工具包
安装并导入工具包:本实验主要使用到的工具包有jieba包和nltk包。
安装 ntlk 模块命令如下,其他模块类似。
二、统计词频:我们对整个语料库统计词频形成词表,并选取每个类别70%的文件作为训练集,30%的文件作为测试集
如下图中代码,root_path 为文档总目录,c_path 为每个分类的目录。待分类文档示例如下:
nFile 的值为每个分类下的文档数目,设置改值的目的是为了取每个分类下前70%的文档作为训练集,后30%的文档作为测试集。如果每个分类下文档数目不一致的话,可以在遍历时使用 num_class = len(file_list) 得到分类下文档数目,判断时把 nFile 换成 num_class 即可。
label 为类别名,如“财经”。
使用 jieba.lcut 函数对每篇文档进行分词后,连同标签一起存于列表 train_set (训练集列表)或者 test_set (测试集列表)中。对于每个词,使用字典 all_words 统计每个词出现的次数,索引为词,key值为词出现的次数,统计完成后使用 sorted 函数按照词的次数进行倒叙排列。
nFile = 200
root_path = "data"
train_set = []
test_set = []
all_words = {
}
label_list = os.listdir(root_path)
for label in label_list:
if os.path.isdir(root_path + '/' + label):
c_path = root_path + '/' + label
file_list = os.listdir(c_path)
for num, file_name in enumerate(file_list):
with open(c_path + '/' + file_name, 'r', encoding='UTF-8') as f:
txt = f.read()
word_cut = jieba.lcut(txt, cut_all=False)
for word in word_cut:
if word in all_words.keys():
all_words[word] += 1
else:
all_words[word] = 1
if num + 1 > 0.3 * nFile:
train_set.append((word_cut, label))
else:
test_set.append((word_cut, label))
all_words_list = sorted(all_words.items(), key=lambda item:item[1], reverse=True)
三、去除停用词
通常前N个高频词是一些没有实际意义的词或不能够反应文本特征的重要词,由于这些词过于常用,从而不能很好的体现文本特征,例如你,的,呢,了,我等。
读取停用词文件 stopwords.txt, 将停用词存于列表 stopwords 中。
stopwords = []
stopwords