本文和大家分享的主要是机器学习中 sklearn中pipeline相关内容,一起来看看吧,希望对大家学习机器学习有所帮助。
如下图所示,利用pipeline我们可以方便的减少代码量同时让机器学习的流程变得直观,
例如我们需要做如下操作,容易看出,训练测试集重复了代码,
vect = CountVectorizer()tfidf = TfidfTransformer()clf = SGDClassifier()
vX = vect.fit_transform(Xtrain)tfidfX = tfidf.fit_transform(vX)predicted = clf.fit_predict(tfidfX)
# Now evaluate all steps on test setvX = vect.fit_transform(Xtest)tfidfX = tfidf.fit_transform(vX)predicted = clf.fit_predict(tfidfX)
利用pipeline,上面代码可以抽象为,
pipeline = Pipeline([
('vect', CountVectorizer()),