scikit-learn：0.4 使用“Pipeline”统一vectorizer => transformer => classifier、网格搜索调参

最新推荐文章于 2024-04-07 17:12:58 发布

mmc2015

最新推荐文章于 2024-04-07 17:12:58 发布

阅读量3k

点赞数

分类专栏： scikit-learn 机器学习——文本挖掘文章标签： scikit-learn 机器学习网格搜索 pipeline

本文链接：https://blog.csdn.net/mmc2015/article/details/46858009

版权

本文介绍了如何利用scikit-learn的Pipeline将文本数据预处理（vectorizer）、转换（transformer）和分类器（classifier）进行整合，并通过网格搜索进行参数调优。

摘要由CSDN通过智能技术生成

http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html

<strong>1、使用“Pipeline”统一vectorizer => transformer => classifier</strong>
from sklearn.pipeline import Pipeline

text_clf = Pipeline([('vect', CountVectorizer()),
...                      ('tfidf', TfidfTransformer()),
...                      ('clf', MultinomialNB()),
... ])

text_clf = text_clf.fit(rawData.data, rawData.target)
predicted = text_clf.predict(docs_new) 
<strong>#注意，这里是未经任何处理的原始文件，不是X_new_tfidf，否则出现下面错误。</strong>

np.mean(predicted == y_new_target)
Out[51]: 0.5

predicted = text_clf.predict(X_new_tfidf)
Traceback (most recent call last):

  File "<ipython-input-52-20002e79f960>", line 1, in <module>
    predicted = text_clf.predict(X_new_tfidf)

  File "D:\Anaconda\lib