python调用sparkmlib_使用scikit-learn 与Spark MLlib 进行机器学习

最新推荐文章于 2023-01-06 13:35:42 发布

weixin_39826971

最新推荐文章于 2023-01-06 13:35:42 发布

阅读量560

点赞数

文章标签： python调用sparkmlib

使用scikit-learn 与Spark MLlib 进行机器学习

我们要使用scikit-learn(简称sklearn)和Spark MLlib 构建预测模型。我们会使用sklearn 做回归分析，使用Spark MLlib 做分类。

为什么有了Spark MLlib 还要使用scikit-learn

尽管Spark 通过Spark MLlib(http://spark.apache.org/mllib/)提供了机器学习的功能，但scikit-learn 也包含了许多MLlib 所缺失的关于数据流和流程的工具。sklearn 还能让我们对新的样本实时进行分类或者回归，而不需要Kafka 和Spark Streaming，这样会简单很多。

本书中除scikit-learn 外使用的都是“大数据”工具，而在这样一本书中引入scikitlearn 的主要原因是在实践中它真的非常好用。Spark MLlib 是专为大规模数据设计的，而大数据却经常会在提取特征时整合归约为很小的数据集。这意味着sklearn 有的时候比Spark MLlib 更好。如果你要在数据流的中间使用简单的机器学习算法，那么务必使用MLlib。但是如果要实时预测而且数据能放进内存中，请考虑使用sklearn。我们会在第7章中同时用到这两个工具，而在第8 章和第9 章中只使用Spark MLlib。

喜欢的朋友可以添加我们的微信账号：

51CTO读书频道二维码

51CTO读书会第9群:808517103

【责任编辑：book TEL：(010)68476606】

点赞 0

weixin_39826971

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python调用sparkmlib_使用scikit-learn 与Spark MLlib 进行机器学习

使用scikit-learn 与Spark MLlib 进行机器学习我们要使用scikit-learn(简称sklearn)和Spark MLlib 构建预测模型。我们会使用sklearn 做回归分析，使用Spark MLlib 做分类。为什么有了Spark MLlib 还要使用scikit-learn尽管Spark 通过Spark MLlib(http://spark.apache.org/ml...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。