唯一的区别是make_pipeline自动生成步骤的名称。
如果要将管道与模型选择实用程序(例如GridSearchCV)一起使用,则需要步骤名称。使用网格搜索,需要为管道的各个步骤指定参数:pipe = Pipeline([('vec', CountVectorizer()), ('clf', LogisticRegression()])
param_grid = [{'clf__C': [1, 10, 100, 1000]}
gs = GridSearchCV(pipe, param_grid)
gs.fit(X, y)
将其与make_管道进行比较:pipe = make_pipeline(CountVectorizer(), LogisticRegression())
param_grid = [{'logisticregression__C': [1, 10, 100, 1000]}
gs = GridSearchCV(pipe, param_grid)
gs.fit(X, y)
因此,使用Pipeline:名字是明确的,如果你需要的话,你不必想出来
如果更改步骤中使用的估计器/转换器,则名称不会更改,例如,如果将logisticRegregation()替换为LinearSVC(),则仍可以使用clf__C。
make_pipeline:较短且更可读的符号
使用简单的规则(估计器的小写名称)自动生成名称。
何时使用它们取决于您:)我更喜欢使用make_pipeline进行快速实验,使用pipeline获得更稳定的代码;经验法则:I Python Notebook->;make_pipeline;Python module in a larger project->;pipeline。但是,在模块中使用make_管道或在短脚本或笔记本中使用make_管道肯定不是什么大问题。