基于 nltk 模块中的朴素贝叶斯模型的文本分类任务


前言

基于 nltk 模块中的朴素贝叶斯模型的文本分类任务:文本共包含七个类别,每个类别包含200个文本。
在这里插入图片描述


一、安装并导入工具包

安装并导入工具包:本实验主要使用到的工具包有jieba包和nltk包。
安装 ntlk 模块命令如下,其他模块类似。
在这里插入图片描述

二、统计词频:我们对整个语料库统计词频形成词表,并选取每个类别70%的文件作为训练集,30%的文件作为测试集

如下图中代码,root_path 为文档总目录,c_path 为每个分类的目录。待分类文档示例如下:
在这里插入图片描述
在这里插入图片描述

nFile 的值为每个分类下的文档数目,设置改值的目的是为了取每个分类下前70%的文档作为训练集,后30%的文档作为测试集。如果每个分类下文档数目不一致的话,可以在遍历时使用 num_class = len(file_list) 得到分类下文档数目,判断时把 nFile 换成 num_class 即可。
label 为类别名,如“财经”。

使用 jieba.lcut 函数对每篇文档进行分词后,连同标签一起存于列表 train_set (训练集列表)或者 test_set (测试集列表)中。对于每个词,使用字典 all_words 统计每个词出现的次数,索引为词,key值为词出现的次数,统计完成后使用 sorted 函数按照词的次数进行倒叙排列。

nFile = 200
root_path = "data"
train_set = []
test_set = []
all_words = {
   }

label_list = os.listdir(root_path)
for label in label_list:
	if os.path.isdir(root_path + '/' + label):
		c_path = root_path + '/' + label
		file_list = os.listdir(c_path)
		for num, file_name in enumerate(file_list):
			with open(c_path + '/' + file_name, 'r', encoding='UTF-8') as f:
				txt = f.read()
				word_cut = jieba.lcut(txt, cut_all=False)
				for word in word_cut:
					if word in all_words.keys():
						all_words[word] += 1
					else:
						all_words[word] = 1
				if num + 1 > 0.3 * nFile:
					train_set.append((word_cut, label))
				else:
					test_set.append((word_cut, label))
all_words_list = sorted(all_words.items(), key=lambda item:item[1], reverse=True)

三、去除停用词

通常前N个高频词是一些没有实际意义的词或不能够反应文本特征的重要词,由于这些词过于常用,从而不能很好的体现文本特征,例如你,的,呢,了,我等。

读取停用词文件 stopwords.txt, 将停用词存于列表 stopwords 中。

stopwords = []
stopwords 
  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

宫水二叶

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值