Spark MLlib系列(一)：入门介绍

最新推荐文章于 2024-05-05 12:15:56 发布

zachary_OOM

最新推荐文章于 2024-05-05 12:15:56 发布

阅读量5.2w

点赞数 6

分类专栏： Spark 文章标签： spark hadoop machine learning 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shifenglov/article/details/43762705

版权

前言

最新的情况是国内BAT已经都上了spark，而且spark在hadoop上的应用，大有为大象插上翅膀的效果。个人估计在未来两到三年，spark大有代替hadoop的mapreduce的趋势。应该说spark的在使用上面的经济成本，性能优势，一站式解决能力，一定会使其大放异彩。

因为个人对spark很感兴趣，加上项目中需要使用它解决一些机器学习的问题，在网上搜集资料时发现，spark machine learning这块的资料确实太缺少了，所以决定写一spark machine learning的一系列博客（只涉及机器学习部分）。

目前考虑是，这个系列，先讲一些入门的知识，然后是一些真正的实战应用，可能涉及到推荐，聚类，分类等问题，理论涉及不会太多，分享一些接地气的干货，让大家能够真正感受到spark machine learning的魅力。

为什么使用MLlib

MLlib 构建在apache spark之上，一个专门针对大量数据处理的通用的、快速的引擎

Speed.Spark has an advanced DAG execution engine that supports cyclic data flow and in-memory computing. Run programs up to 100x faster than Hadoop MapReduce in memory, or 10x faster on disk.
Ease of Use .Write applications quickly in Java, Scala or Python.
Generality.Combine SQL, streaming, and complex analytics.

最低0.47元/天解锁文章

关注

6
点赞
踩
42

收藏

觉得还不错? 一键收藏
2
评论
Spark MLlib系列(一)：入门介绍

还在用mahout吗，matlab，R，你已经out了，快来拥抱真正的分布式机器学习神器--spark machine learning，体验它强大的并发式计算能力，卓越的内存式运算性能，支持众多的算法包，以及scala语言的简洁！
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。