python调用sparkmlib_使用scikit-learn 与Spark MLlib 进行机器学习

使用scikit-learn 与Spark MLlib 进行机器学习

我们要使用scikit-learn(简称sklearn)和Spark MLlib 构建预测模型。我们会使用sklearn 做回归分析,使用Spark MLlib 做分类。

为什么有了Spark MLlib 还要使用scikit-learn

尽管Spark 通过Spark MLlib(http://spark.apache.org/mllib/)提供了机器学习的功能,但scikit-learn 也包含了许多MLlib 所缺失的关于数据流和流程的工具。sklearn 还能让我们对新的样本实时进行分类或者回归,而不需要Kafka 和Spark Streaming,这样会简单很多。

本书中除scikit-learn 外使用的都是“大数据”工具,而在这样一本书中引入scikitlearn 的主要原因是在实践中它真的非常好用。Spark MLlib 是专为大规模数据设计的,而大数据却经常会在提取特征时整合归约为很小的数据集。这意味着sklearn 有的时候比Spark MLlib 更好。如果你要在数据流的中间使用简单的机器学习算法,那么务必使用MLlib。但是如果要实时预测而且数据能放进内存中,请考虑使用sklearn。我们会在第7章中同时用到这两个工具,而在第8 章和第9 章中只使用Spark MLlib。

喜欢的朋友可以添加我们的微信账号:

51CTO读书频道二维码

51CTO读书会第9群:808517103

【责任编辑:book TEL:(010)68476606】

点赞 0

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值