作者将讨论机器学习概念以及如何使用spark MLlib来进行预测分析。后面将会使用一个例子展示Spark MLlib在机器学习领域的强悍。
1.引言
Spark机器学习API包含两个package:spark.mllib 和spark.ml。
spark.mllib 包含基于弹性数据集(RDD)的原始Spark机器学习API。它提供的机器学习技术有:相关性、分类和回归、协同过滤、聚类和数据降维。
spark.ml提供建立在DataFrame的机器学习API,DataFrame是Spark SQL的核心部分。这个包提供开发和管理机器学习管道的功能,可以用来进行特征提取、转换、选择器和机器学习算法,比如分类和回归和聚类。
本篇文章聚焦在Spark MLlib上,并讨论各个机器学习算法。
2.机器学习和数据科学
是从已经存在的数据进行学习来对将来进行数据预测,它是基于输入数据集创建模型做数据驱动决策。
数据科学是从海里数据集(结构化和非结构化数据)中抽取知识,为商业团队提供数据洞察以及影响商业决策和路线图。数据科学家的地位比以前用传统数值方法解决问题的人要重要。
以下是几类机器学习模型:
监督学习模型
非监督学习模型
半监督学习模型
增强学习模型
下面简单的了解下各机器学习模型,并进行比较:
监督学习模型:监督学习模型对已标记的训练数据集训练出结果,然后对未标记的数据集进行预测;
监督学习又包含两个子模型:回归模型和分类模型。
非监督学习模型:非监督学习模型是用来从原始数据(无训练数据)中找到隐藏的模式或者关系,因而非监督学习模型是基于未标记数据集的;
半监督学习模型:半监督学习模型用在监督和非监督机器学习中