用Spark进行大数据处理之机器学习篇

最新推荐文章于 2024-05-15 09:42:26 发布

大数据hadoop

最新推荐文章于 2024-05-15 09:42:26 发布

阅读量1.9k

点赞数 1

分类专栏：大数据学习互联网资讯人工智能文章标签：大数据程序员编程语言 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/YUSDook/article/details/90294977

版权

作者将讨论机器学习概念以及如何使用spark MLlib来进行预测分析。后面将会使用一个例子展示Spark MLlib在机器学习领域的强悍。

1.引言

Spark机器学习API包含两个package：spark.mllib 和spark.ml。

spark.mllib 包含基于弹性数据集(RDD)的原始Spark机器学习API。它提供的机器学习技术有：相关性、分类和回归、协同过滤、聚类和数据降维。
spark.ml提供建立在DataFrame的机器学习API，DataFrame是Spark SQL的核心部分。这个包提供开发和管理机器学习管道的功能，可以用来进行特征提取、转换、选择器和机器学习算法，比如分类和回归和聚类。

本篇文章聚焦在Spark MLlib上，并讨论各个机器学习算法。

2.机器学习和数据科学

是从已经存在的数据进行学习来对将来进行数据预测，它是基于输入数据集创建模型做数据驱动决策。

数据科学是从海里数据集(结构化和非结构化数据)中抽取知识，为商业团队提供数据洞察以及影响商业决策和路线图。数据科学家的地位比以前用传统数值方法解决问题的人要重要。

以下是几类机器学习模型：

监督学习模型
非监督学习模型
半监督学习模型
增强学习模型

下面简单的了解下各机器学习模型，并进行比较：

监督学习模型：监督学习模型对已标记的训练数据集训练出结果，然后对未标记的数据集进行预测;
监督学习又包含两个子模型：回归模型和分类模型。
非监督学习模型：非监督学习模型是用来从原始数据(无训练数据)中找到隐藏的模式或者关系，因而非监督学习模型是基于未标记数据集的;
半监督学习模型：半监督学习模型用在监督和非监督机器学习中

最低0.47元/天解锁文章

大数据hadoop

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
用Spark进行大数据处理之机器学习篇

作者将讨论机器学习概念以及如何使用sparkMLlib来进行预测分析。后面将会使用一个例子展示Spark MLlib在机器学习领域的强悍。1.引言Spark机器学习API包含两个package：spark.mllib 和spark.ml。spark.mllib 包含基于弹性数据集(RDD)的原始Spark机器学习API。它提供的机器学习技术有：相关性、分类和回归、协同过滤、聚类和数据...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。