[MLLib]一、Spark MLLib介绍

最新推荐文章于 2024-06-07 11:25:36 发布

namelessml

最新推荐文章于 2024-06-07 11:25:36 发布

阅读量5.5k

点赞数

分类专栏：机器学习 spark

本文链接：https://blog.csdn.net/namelessml/article/details/54016662

版权

Spark MLLib是基于大数据的机器学习库，提供分类、回归、聚类、协同过滤等算法。它支持内存计算，简化ML实践并允许扩展到大规模。MLLib包含原始的RDD算法API和基于DataFrame的高层次API，后者用于构建机器学习管道，提高了灵活性和效率。Spark官方推荐使用spark.ml包，并计划在Spark 3.0中移除MLLib。

摘要由CSDN通过智能技术生成

一、机器学习

是一门人工智能的科学。利用数据或以往的经验，以此优化计算机程序的性能标准。英文定义：

A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

图1　机器学习处理过程

ML的三个关键词：算法、经验、性能，其处理过程如图1所示。在数据的基础上，通过算法构建出模型并对模型进行评估。评估的性能如果达到要求要求，就用该模型来测试其他数据；如果达不到要求，则调整算法重新建立模型，再次评估。如此循环，得到满意的经验后来处理其他数据。

二、基于大数据的机器学习

传统的机器学习算法，由于技术和单机存储的限制，只能在少量数据上使用。即以前的统计/机器学习依赖于数据抽样。而实际中样本往往很难做好随机，导致学习模型不是很准确，在测试数据上效果也可能不太好。随着HDFS等分布式文件系统出现，存储海量数据成为可能。在全量数据上进行学习也成为可能，这解决了统计随机性的问题。然而，由于MR自身的限制，使用MR来实现分布式机器学习算法非常耗时和消耗磁盘IO。这是因为，机器学习算法参数学习的过程基本都是迭代的&