上一步对文本进行了切词,下一步就是进行了分类:
//这里有个问题是,假如用predict_proba()这个函数的时候,可以得到一篇文章属于一个类并得到属于这个类的概率,返回一个列表,而predict()这个函数只能得到文本最应该属于的那个类,只能返回一个类。同时,对于给予中文类别,那么返回的可能是数字类别,现在没有找到中文类别和数字类进行对应的函数,于是直接自己把类别和数字进行对应,返回的类别再自己进行对应到中文。
import time
import numpy as np
import scipy as sp
from sklearn.feature_extraction.text import TfidfVectorizer,TfidfTransformer
from sklearn.naive_bayes import GaussianNB
from sklearn.naive_bayes import MultinomialNB
from sklearn.preprocessing import LabelEncoder
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC