Spark
文章平均质量分 81
zachary_OOM
大数据传道者。专注大数据/云计算,hadoop,spark
联系方式:zachary880914@163.com
https://github.com/zacharyzhanghao
展开
-
scala语言学习笔记
简介 可伸缩的语言是一种多范式的编程语言,一种类似java的编程,设计初衷是要集成面向对象编程和函数式编程的各种特性。 Scala是在JVM上运行。 Scala的特点* 面向对象风格* 函数式风格* 更高层的并发模型Scala把Erlang风格的基于actor的并发带进了JVM。开发者现在可以利用Scala的actor模型在JV转载 2014-08-15 14:13:10 · 1100 阅读 · 0 评论 -
Spark扫盲
Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算转载 2014-08-15 14:07:54 · 2421 阅读 · 0 评论 -
Spark MLlib系列(一):入门介绍
还在用mahout吗,matlab,R,你已经out了,快来拥抱真正的分布式机器学习神器--spark machine learning,体验它强大的并发式计算能力,卓越的内存式运算性能,支持众多的算法包,以及scala语言的简洁!原创 2015-02-12 15:11:26 · 52281 阅读 · 2 评论 -
Spark MLlib系列(二):基于协同过滤的电影推荐系统
随着大数据时代的到来,数据当中挖取金子的工作越来越有吸引力。利用Spark在内存迭代运算、机器学习领域强悍性能的优势,使用spark处理数据挖掘问题就显得很有实际价值。这篇文章给大家分享一个spark MLlib 的推荐实战例子。我将会分享怎样用spark MLlib做一个电影评分的推荐系统。使用到的算法是user-based协同过滤。如果对Spark MLlib不太了解的,请阅读我的上一篇博客。原创 2015-02-13 16:36:00 · 33723 阅读 · 12 评论