[MLLib]一、Spark MLLib介绍

Spark MLLib是基于大数据的机器学习库,提供分类、回归、聚类、协同过滤等算法。它支持内存计算,简化ML实践并允许扩展到大规模。MLLib包含原始的RDD算法API和基于DataFrame的高层次API,后者用于构建机器学习管道,提高了灵活性和效率。Spark官方推荐使用spark.ml包,并计划在Spark 3.0中移除MLLib。
摘要由CSDN通过智能技术生成

一、机器学习

是一门人工智能的科学。利用数据或以往的经验,以此优化计算机程序的性能标准。英文定义:

A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.


这里写图片描述
图1 机器学习处理过程

ML的三个关键词:算法、经验、性能,其处理过程如图1所示。在数据的基础上,通过算法构建出模型并对模型进行评估。评估的性能如果达到要求要求,就用该模型来测试其他数据;如果达不到要求,则调整算法重新建立模型,再次评估。如此循环,得到满意的经验后来处理其他数据。

二、基于大数据的机器学习

传统的机器学习算法,由于技术和单机存储的限制,只能在少量数据上使用。即以前的统计/机器学习依赖于数据抽样。而实际中样本往往很难做好随机,导致学习模型不是很准确,在测试数据上效果也可能不太好。随着HDFS等分布式文件系统出现,存储海量数据成为可能。在全量数据上进行学习也成为可能,这解决了统计随机性的问题。然而,由于MR自身的限制,使用MR来实现分布式机器学习算法非常耗时和消耗磁盘IO。这是因为,机器学习算法参数学习的过程基本都是迭代的&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值