基于 nltk 模块中的朴素贝叶斯模型的文本分类任务

最新推荐文章于 2024-03-21 17:40:55 发布

宫水二叶

最新推荐文章于 2024-03-21 17:40:55 发布

阅读量825

点赞数 3

分类专栏：内容安全实验文章标签： python 机器学习 nltk 朴素贝叶斯算法

本文链接：https://blog.csdn.net/qq_43091428/article/details/116035724

版权

基于 nltk 模块中的朴素贝叶斯模型的文本分类任务

前言
一、安装并导入工具包
二、统计词频：我们对整个语料库统计词频形成词表，并选取每个类别70%的文件作为训练集，30%的文件作为测试集
三、去除停用词
四、生成用于分类的词表（去除部分高频词）
五、获取文本特征
六、贝叶斯分类器训练
七、准确率计算
八、不去除停用词和去除停用词的准确率结果对比和思考
九、代码总和

前言

基于 nltk 模块中的朴素贝叶斯模型的文本分类任务：文本共包含七个类别，每个类别包含200个文本。
在这里插入图片描述

一、安装并导入工具包

安装并导入工具包：本实验主要使用到的工具包有jieba包和nltk包。
安装 ntlk 模块命令如下，其他模块类似。
在这里插入图片描述

二、统计词频：我们对整个语料库统计词频形成词表，并选取每个类别70%的文件作为训练集，30%的文件作为测试集

如下图中代码，root_path 为文档总目录，c_path 为每个分类的目录。待分类文档示例如下：
在这里插入图片描述

nFile 的值为每个分类下的文档数目，设置改值的目的是为了取每个分类下前70%的文档作为训练集，后30%的文档作为测试集。如果每个分类下文档数目不一致的话，可以在遍历时使用 num_class = len(file_list) 得到分类下文档数目，判断时把 nFile 换成 num_class 即可。
label 为类别名，如“财经”。

使用 jieba.lcut 函数对每篇文档进行分词后，连同标签一起存于列表 train_set （训练集列表）或者 test_set （测试集列表）中。对于每个词，使用字典 all_words 统计每个词出现的次数，索引为词，key值为词出现的次数，统计完成后使用 sorted 函数按照词的次数进行倒叙排列。

nFile = 200
root_path = "data"
train_set = []
test_set = []
all_words = {
   }

label_list = os.listdir(root_path)
for label in label_list:
	if os.path.isdir(root_path + '/' + label):
		c_path = root_path + '/' + label
		file_list = os.listdir(c_path)
		for num, file_name in enumerate(file_list):
			with open(c_path + '/' + file_name, 'r', encoding='UTF-8') as f:
				txt = f.read()
				word_cut = jieba.lcut(txt, cut_all=False)
				for word in word_cut:
					if word in all_words.keys():
						all_words[word] += 1
					else:
						all_words[word] = 1
				if num + 1 > 0.3 * nFile:
					train_set.append((word_cut, label))
				else:
					test_set.append((word_cut, label))
all_words_list = sorted(all_words.items(), key=lambda item:item[1], reverse=True)

三、去除停用词

通常前N个高频词是一些没有实际意义的词或不能够反应文本特征的重要词，由于这些词过于常用，从而不能很好的体现文本特征，例如你，的，呢，了，我等。

读取停用词文件 stopwords.txt，将停用词存于列表 stopwords 中。

stopwords = []
stopwords

最低0.47元/天解锁文章

宫水二叶

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
3
评论
基于 nltk 模块中的朴素贝叶斯模型的文本分类任务

基于 nltk 模块中的朴素贝叶斯模型的文本分类任务前言一、安装并导入工具包二、统计词频：我们对整个语料库统计词频形成词表，并选取每个类别70%的文件作为训练集，30%的文件作为测试集三、去除停用词四、生成用于分类的词表（去除部分高频词）五、获取文本特征六、贝叶斯分类器训练七、准确率计算八、不去除停用词和去除停用词的准确率结果对比和思考九、代码总和前言基于 nltk 模块中的朴素贝叶斯模型的文本分类任务：文本共包含七个类别，每个类别包含200个文本。一、安装并导入工具包安装并导入工具包：.
复制链接

扫一扫