python平行（3）：【parallel python】与【sklearn joblib的parallel和delayed】性能对比

最新推荐文章于 2024-08-03 08:59:55 发布

mmc2015

最新推荐文章于 2024-08-03 08:59:55 发布

阅读量1.8w

点赞数 4

分类专栏： Python和Cython 文章标签： python parallel python并行 parallel python joblib的parallel和dela

本文链接：https://blog.csdn.net/mmc2015/article/details/51878080

版权

本文对比了使用Parallel Python库和sklearn的Joblib的parallel和delayed方法进行随机森林并行训练的性能。实验表明，随着训练树数量增加，Parallel Python在效率上优于sklearn Joblib，并且当任务量较小的时候，sklearn Joblib可能是更好的选择。

摘要由CSDN通过智能技术生成

随机森林的并行写完了。大致采用了两种方法：

1）一种是 python并行（1）中提到的joblib的parallel和delayed方法（具体实现是直接使用sklearn.externals.joblib，因为sklearn优化得很好）

2）第二种是采用http://www.parallelpython.com/的SMP

两者编程都很简单，但效率相差还是挺大的，这里大概贴出三者的编程及时间对比。

首先结论是：parallel python 好于 sklearn joblib的parallel和delayed 好于 sequential的训练。

如果你发现parallel python时间还要多于sequential的训练，那就是实现的有问题，下面我会给出一种错误实现的方式。

首先sequential的训练：

trees=[]
            start_time=time.time()
            for i in range(n_more_estimator):
                tree=MY_TreeClassifier(
                    criterion=self.criterion,
                    max_depth=self.max_depth,
                    min_leaf_split=self.min_leaf_split,
                    max_feature=self.max_feature,
                    bootstrap=self.bootstrap,
                    seed=self.seed,
                    n_jobs=self.n_jobs
                    )
                tree=tree.fit(X, y)
                trees.append(tree)
            sequential_time=time.time() - start_time

其次s