第六篇|Spark MLlib机器学习(1)

本文介绍了机器学习的基本概念,包括监督学习、无监督学习、半监督学习和强化学习。重点讲解了Spark的机器学习库MLlib,特别是其分类、回归、聚类和协同过滤等算法,并对比了spark.mllib与spark.ml的区别,强调了数据变换和规约在预处理中的重要性。最后,文章概述了Spark ML支持的常用机器学习算法,并预告了接下来将探讨如何基于Spark ML构建实际应用。
摘要由CSDN通过智能技术生成

MLlib是Spark提供的一个机器学习库,通过调用MLlib封装好的算法,可以轻松地构建机器学习应用。它提供了非常丰富的机器学习算法,比如分类、回归、聚类及推荐算法。除此之外,MLlib对用于机器学习算法的API进行了标准化,从而使将多种算法组合到单个Pipeline或工作流中变得更加容易。通过本文,你可以了解到:

  • 什么是机器学习
  • 大数据与机器学习
  • 机器学习分类
  • Spark MLLib介绍

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

来源:Mitchell, T. (1997). Machine Learning. McGraw Hill.

什么是机器学习

机器学习的应用已遍及人工智能的各个分支,如专家系统、自动推理、自然语言理解、模式识别、计算机视觉、智能机器人等领域。机器学习是人工智能的一个分支学科,主要研究的是让机器从过去的经历中学习经验,对数据的不确定性进行建模,对未来进行预测。机器学习应用的领域很多,比如搜索、推荐系统、垃圾邮件过滤、人脸识别、语音识别等等。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值