用scikit-learn和jieba支持中文文本特征提取和分类的测例

最新推荐文章于 2022-12-10 16:02:32 发布

lc11535

最新推荐文章于 2022-12-10 16:02:32 发布

阅读量339

点赞数

分类专栏： PYTHON

本文链接：https://blog.csdn.net/lc11535/article/details/103258913

版权

本文介绍了如何使用jieba和scikit-learn进行中文文本的特征提取和分类。在中文环境下，需要注意设置analyzer参数，并通过训练集的vocabulary确保测试集和训练集特征对齐。参考了多个博客资源进行实现。

摘要由CSDN通过智能技术生成

注意：
安装jieba用此命令：easy_install jieba。pip install jieba有时不能正确安装。
中文情况下analyzer='word'参数需要带上，vocabulary=cv.vocabulary_这样的参数是为了使测试集和训练集特征数对齐

代码：

from time import time
import sys
import os
import numpy as np
import scipy.sparse as sp
import matplotlib.pyplot as plt
import jieba
import jieba.posseg as pseg


from sklearn import feature_extraction
from sklearn.feature_extraction.text import TfidfTransformer  
from sklearn.feature_extraction.text import CountVectorizer  
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.linear_model import SGDClassifier
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report


corpus=["我爱河南。",#第一类文本切词后的结果，词之间以空格隔开 
"你恨河南。",
"他总是爱河南。",
"我有时候恨河南。"]
tokenized_corpus = []
for text in corpu