pyspark：ML和MLlib

最新推荐文章于 2025-04-09 17:13:37 发布

Python小萝卜

最新推荐文章于 2025-04-09 17:13:37 发布

阅读量4k

点赞数 14

分类专栏： pyspark 文章标签： ML MLLlib

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_23860475/article/details/90721471

版权

pyspark 专栏收录该内容

8 篇文章

订阅专栏

Spark有两个用于机器学习的库，分别是ML和MLlib，可以把实际的机器学习以简单、可伸缩并且无缝的方式与Spark整合起来。Spark中ML和MLlib的主要区别和联系如下：

（1）目前常用的机器学习功能2个库都能满足需求；

（2）spark官方推荐使用ML, 因为在spark3.0之后，将会废弃MLlib，全面的基于ML。因为ml操作的对象是DataFrame，操作起来会比RDD方便很多。所以，建议新接触spark的同学可以直接用ml 的方式；

（3）ML主要操作的是DataFrame, 而MLlib操作的是RDD，也就是说二者面向的数据集不一样。相比于MLlib在RDD提供的基础操作，ML在DataFrame上的抽象级别更高，数据和操作耦合度更低；

（4）DataFrame和RDD什么关系？DataFrame是Dataset的子集，也就是Dataset[Row], 而DataSet是对RDD的封装，对SQL之类的操作做了很多优化；

（5）相比于MLlib在RDD提供的基础操作，ML在DataFrame上的抽象级别更高，数据和操作耦合度更低；

（6）ML中的操作可以使用pipeline, 跟sklearn一样，可以把很多操作(算法/特征提取/特征转换)以管道的形式串起来，然后让数据在这个管道中流动。大家可以脑补一下Linux管道在做任务组合时有多么方便；

（7）ML中无论是什么模型，都提供了统一的算法操作接口，比如模型训练都是fit；不像MLlib中不同模型会有各种各样的train；

（8）MLlib在spark2.0之后进入维护状态, 这个状态通常只修复BUG不增加新功能；

（9）ML中的随机森林支持更多的功能：包括重要度、预测概率输出等，而MLlib不支持。

如果对你有帮助，请点下赞，予人玫瑰手有余香！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。