文本自动分类

最新推荐文章于 2024-03-02 20:36:08 发布

LiFeitengup

最新推荐文章于 2024-03-02 20:36:08 发布

阅读量1.3w

点赞数 2

分类专栏：数据挖掘文本挖掘自然语言处理机器学习

本文链接：https://blog.csdn.net/lifeitengup/article/details/12287987

版权

机器学习同时被 3 个专栏收录

35 篇文章 1 订阅

订阅专栏

数据挖掘

8 篇文章 0 订阅

订阅专栏

文本挖掘

3 篇文章 0 订阅

订阅专栏

使用机器学习方法做文档的自动分类

套路：

1.根据每个文件生成该文件的一个特征

2.根据特征选择分类器进行文本分类

3.(可选)根据 2 步结果，调整参数/特征等

示例：

数据：搜狗文本分类语料库精简版

分类器：朴素贝叶斯

编程语言：Python+nltk自然语言处理库+jieba分词库

__author__ = 'LiFeiteng'
# -*- coding: utf-8 -*-
import os
import  jieba
import nltk


## 由搜狗语料库 生成数据
folder_path = 'C:\LIFEITENG\SogouC.reduced\\Reduced'
#folder_path = 'C:\LIFEITENG\SogouC.mini\Sample'
folder_list = os.listdir(folder_path)
class_list = [] ##由于乱码等问题 仅以数字[0,1,...]来代表文件分类
nClass = 0
N = 100 #每类文件 最多取 100 个样本 70%train 30%test
train_set = []
test_set = []
all_words = {}
import time
process_times = [] ## 统计处理每个文件的时间
for i in range(len(folder_list)):
	new_folder_path = folder_path + '\\' + folder_list[i]
	files = os.listdir(new_folder_path)
	class_list.append(nClass)
	nClass += 1
	j = 0
	nFile = min([len(files), N])
	for file in files:
		if j > N:
			break
		starttime = time.clock()

		fobj = open(new_folder_path+'\\'+file, 'r')
		raw = fobj.read()
		word_cut = jieba.cut(raw, cut_all=False)
		word_list = list(word_cut)
		for word in word_list:
			if word in all_words.keys():
				all_words[word] += 1
			else:
				all_words[word] = 0
		if j > 0.3 * nFile:
			train_set.append((word_list, class_list[i]))
		else:
			test_set.append((word_list, class_list[i]))
		j += 1
		endtime = time.clock()
		process_times.append(endtime-starttime)

		print "Folder ",i,"-file-",j, "all_words length = ", len(all_words.keys()),\
			"process time:",(endtime-starttime)


print len(all_words)

## 根据word的词频排序
all_words_list = sorted(all_words.items(), key=lambda e:e[1], reverse=True)
word_features = []
## 由于乱码的问题，没有正确使用 stopwords；简单去掉 前100个高频项
## word_features 是选用的 word-词典
for t in range(100, 1100, 1):
	word_features.append(all_words_list[t][0])

def document_features(document):
	document_words = set(document)
	features = {}
	for word in word_features: ## 根据词典生成 每个document的feature True or False
		features['contains(%s)' % word] = (word in document_words)
	return features

## 根据每个document 分词生成的 word_list 生成 feature
train_data = [(document_features(d), c) for (d,c) in train_set]
test_data = [(document_features(d), c) for (d,c) in test_set]
print "train number:",len(train_data),"\n test number:",len(test_data)

## 朴素贝叶斯分类器
classifier = nltk.NaiveBayesClassifier.train(train_data)
print "test accuracy:",nltk.classify.accuracy(classifier, test_data)

## 处理每个文件所用的时间 可见到后面 处理单个文件的时间显著增长
## 原因 已查明
import pylab
pylab.plot(range(len(process_times)), process_times, 'b.')
pylab.show()

test上的正确率： 9个类别 74%