Spark机器学习库简介

最新推荐文章于 2024-09-27 16:14:58 发布

ronaldo1994

最新推荐文章于 2024-09-27 16:14:58 发布

阅读量1.8k

点赞数 1

分类专栏： spark 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ronaldo1994/article/details/109850689

版权

本文介绍了大数据与机器学习的关系，以及机器学习的四大分类。重点讲解了Spark的机器学习库MLlib，包括其组件spark.mllib和spark.ml，其中spark.ml是基于DataFrame的API，提供更高效和易用的机器学习流程。此外，还提到了Spark ML中的特征工程处理方法。

摘要由CSDN通过智能技术生成

一.大数据与机器学习

大数据时代，数据产生的速度是非常惊人的。互联网、移动互联网、物联网、GPS等等都会在无时无刻产生着数据。处理这些数据所需要的存储与计算的能力也在成几何级增长，由此诞生了一系列的以Hadoop为代表的大数据技术，这些大数据技术为处理和存储这些数据提供了可靠的保障。

数据、信息、知识是由大到小的三个层次。单纯的数据很难说明一些问题，需要加之人们的一些经验，将其转换为信息，所谓信息，也就是为了消除不确定性，我们常说信息不对称，指的就是在不能够获取足够的信息时，很难消除一些不确定的因素。而知识则是最高阶段，所以数据挖掘也叫知识发现。

机器学习的任务就是利用一些算法，作用于大数据，然后挖掘背后所蕴含的潜在的知识。训练的数据越多，机器学习就越能体现出优势，以前机器学习解决不了的问题，现在通过大数据技术可以得到很好的解决，性能也会大幅度提升，如语音识别、图像识别等等。

二.机器学习分类

机器学习主要分为下面几大类：

监督学习(supervised learning)
基本上是分类的同义词。学习中的监督来自训练数据集中标记的实例。比如，在邮政编码识别问题中，一组手写邮政编码图像与其对应的机器可读的转换物用作训练实例，监督分类模型的学习。常见的监督学习算法包括：线性回归、逻辑回归、决策树、朴素贝叶斯、支持向量机等等。
无监督学习(unsupervised learning)
本质上是聚类的同义词。学习过程是无监督的，因为输入实例没有类标记。无监督学习的任务是从给定的数据集中，挖掘出潜在的结构

最低0.47元/天解锁文章

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。