python爬网站数据变压器_python – scikit-learn管道：网格搜索变压器参数以生成数据...

最新推荐文章于 2024-03-28 13:45:24 发布

weixin_39940957

最新推荐文章于 2024-03-28 13:45:24 发布

阅读量120

点赞数

文章标签： python爬网站数据变压器

我想使用scikit-learn管道的第一步来生成玩具数据集,以评估我的分析性能.我想出的一个简单的示例解决方案如下所示：

import numpy as np

from sklearn.pipeline import Pipeline

from sklearn.grid_search import GridSearchCV

from sklearn.base import TransformerMixin

from sklearn import cluster

class FeatureGenerator(TransformerMixin):

def __init__(self, num_features=None):

self.num_features = num_features

def fit(self, X, y=None, **fit_params):

return self

def transform(self, X, **transform_params):

return np.array(

range(self.num_features*self.num_features)

).reshape(self.num_features,

self.num_features)

def get_params(self, deep=True):

return {"num_features": self.num_features}

def set_params(self, **parameters):

self.num_features = parameters["num_features"]

return self

这个变压器在起作用. G.被称为这样：

pipeline = Pipeline([

('pick_features', FeatureGenerator(100)),

('kmeans', cluster.KMeans())

])

pipeline = pipeline.fit(None)

classes = pipeline.predict(None)

print classes

一旦我尝试对此管道进行网格搜索,它就变得棘手：

parameter_sets = {

'pick_features__num_features' : [10,20,30],

'kmeans__n_clusters' : [2,3,4]

}

pipeline = Pipeline([

('pick_features', FeatureGenerator()),

('kmeans', cluster.KMeans())

])

g_search_estimator = GridSearchCV(pipeline, parameter_sets)

g_search_estimator.fit(None,None)

网格搜索期望样本和标签作为输入,并且不像管道那样健壮,管道不会抱怨None作为输入参数：

TypeError: Expected sequence or array-like, got

这是有道理的,因为网格搜索需要将数据集划分为不同的cv分区.

除了上面的例子,我有很多参数,可以在数据集生成步骤中进行调整.因此,我需要一个解决方案,将此步骤包含在我的参数选择交叉验证中.

问题：有没有办法从第一个变换器内部设置GridSearch的X和y？或者解决方案怎么样,用多个不同的数据集(最好是并行)调用GridSearch？或者有没有人试图自定义GridSearchCV或可以指向一些阅读材料？

weixin_39940957

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。