我必须将文章分类到我的自定义类别中.所以我选择了SciKit的MultinomialNB.我正在监督学习.所以我有一个编辑每天查看文章,然后标记它们.标记后,我将它们包含在我的学习模型中,依此类推.下面是用于了解我正在做什么和使用的代码. (我不包括任何进口线,因为我只是想让你知道我在做什么)(
Reference)
corpus = (train_set)
vectorizer = HashingVectorizer(stop_words='english', non_negative=True)
x = vectorizer.transform(corpus)
x_array = x.toarray()
data_array = np.array(x_array)
cat_set = list(cat_set)
cat_array = np.array(cat_set)
filename = '/home/ubuntu/Classifier/Intelligence-MultinomialNB.pkl'
if(not os.path.exists(filename)):
classifier.partial_fit(data_array,cat_array,classes)
print "Saving Classifier"
joblib.dump(classifier, filename, compress=9)
else:
print "Loading Classifier"
classifier = joblib.load(filename)
classifier.partial_fit(data_array,cat_array)