Spark机器学习库简介

本文介绍了大数据与机器学习的关系,以及机器学习的四大分类。重点讲解了Spark的机器学习库MLlib,包括其组件spark.mllib和spark.ml,其中spark.ml是基于DataFrame的API,提供更高效和易用的机器学习流程。此外,还提到了Spark ML中的特征工程处理方法。
摘要由CSDN通过智能技术生成

一.大数据与机器学习

大数据时代,数据产生的速度是非常惊人的。互联网、移动互联网、物联网、GPS等等都会在无时无刻产生着数据。处理这些数据所需要的存储与计算的能力也在成几何级增长,由此诞生了一系列的以Hadoop为代表的大数据技术,这些大数据技术为处理和存储这些数据提供了可靠的保障。

数据、信息、知识是由大到小的三个层次。单纯的数据很难说明一些问题,需要加之人们的一些经验,将其转换为信息,所谓信息,也就是为了消除不确定性,我们常说信息不对称,指的就是在不能够获取足够的信息时,很难消除一些不确定的因素。而知识则是最高阶段,所以数据挖掘也叫知识发现。

机器学习的任务就是利用一些算法,作用于大数据,然后挖掘背后所蕴含的潜在的知识。训练的数据越多,机器学习就越能体现出优势,以前机器学习解决不了的问题,现在通过大数据技术可以得到很好的解决,性能也会大幅度提升,如语音识别、图像识别等等。

 

二.机器学习分类

机器学习主要分为下面几大类:

  • 监督学习(supervised learning)
    基本上是分类的同义词。学习中的监督来自训练数据集中标记的实例。比如,在邮政编码识别问题中,一组手写邮政编码图像与其对应的机器可读的转换物用作训练实例,监督分类模型的学习。常见的监督学习算法包括:线性回归、逻辑回归、决策树、朴素贝叶斯、支持向量机等等。
  • 无监督学习(unsupervised learning)
    本质上是聚类的同义词。学习过程是无监督的,因为输入实例没有类标记。无监督学习的任务是从给定的数据集中,挖掘出潜在的结构
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值