SparkMlib是Spark项目的其中一个模块,包含了当前比较热门的机器学习算法,这些算法API主要分成两种。ML和MLIB。
本文对官方文档中描述的一些算法和工具进行了简单的介绍。
ML主要针对DataFrame,MLIB则面向RDD,算法的种类基本一致,我个人比较偏向于ML,结构化的数据更易操作一些。
Classification
分类算法包括逻辑回归,决策树已经随机森林等等。适合解决有监督形式的机器学习。
现实生活中常常用来预测,用户是否会流失、是否是垃圾邮件、明天是否会下雨等等。
同时部分模型也支持多种分类的预测,如保险业保单风险评级(A,B,C,D,E等级)