Spark
文章平均质量分 69
坡上的云
软件工程师,专注于 大数据 & AI 领域。
展开
-
在 Yarn 上 安装 Spark 0.9.0
今天在自己的Yarn cluster 上搭建了Spark 0.9.0,这里粗要地记录一下主要步骤。 详细的步骤主要参照了以下两篇blog,在此对两位作者表示感谢!-Apache Spark学习:将Spark部署到Hadoop 2.2.0上: http://dongxicheng.org/framework-on-yarn/build-spark-on-hadoop-2-yarn/-sp原创 2014-02-23 22:17:44 · 5359 阅读 · 1 评论 -
3 分钟学会调用 Apache Spark MLlib KMeans
Apache Spark MLlib是Apache Spark体系中重要的一块拼图:提供了机器学习的模块。不过,目前对此网上介绍的文章不是很多。拿KMeans来说,网上有些文章提供了一些示例程序,而这些程序基本和Apache Spark 官网上的程序片断类似:在得到训练模型后,几乎都没有展示如何使用该模型、程序执行流程、结果展示以及举例测试数据等部分。笔者根据Apache Spark官网上的程序片断,写了一个完整的调用MLlib KMeans库的测试程序,并成功在Spark 1.0 + Yarn 2.2 的原创 2014-07-27 17:31:35 · 7624 阅读 · 0 评论 -
3 分钟快速体验 Apache Spark SQL
“War of the Hadoop SQL engines. And the winner is …?” 这是个很好的问题。不过,无论答案如何,我们都值得花一点时间了解一下 Spark SQL 这个 Spark 家族里面的成员。原创 2014-07-28 20:29:31 · 1906 阅读 · 0 评论 -
Spark GraphX 入门实例完整scala代码
由于天然符合互联网中很多场景的需求,图计算正受到越来越多的青睐。Spark GraphX 是作为 Spark 技术堆栈中的一员,担负起了 Spark 在图计算领域中的重任。网络上已经有很多图计算和 Spark GraphX 的概念介绍,此处就不再赘述。 本文将一篇很好的 Spark GraphX 入门文章中代码块整合为一个完整的可执行类,并加上必要注释以及执行结果,以方便有兴趣的朋友快速从 API 角度了解 Spark GraphX。原创 2014-12-20 20:49:16 · 5754 阅读 · 0 评论 -
Spark 中 map 与 flatMap 的区别
通过一个实验来看Spark 中 map 与 flatMap 的区别。原创 2014-12-14 20:00:34 · 46624 阅读 · 2 评论 -
Spark 与 Hadoop 关于 TeraGen/TeraSort 的对比实验(包含源代码)
自从 Hadoop 问世以来,MapReduce 在很长时间内都是排序基准测试的纪录保持者,但这一垄断在最近被基于内存计算的 Spark 打破了。在今年Databricks与AWS一起完成的一个Daytona Gray类别的Sort Benchmark中,Spark 完胜 Hadoop MapReduce:“1/10计算资源,1/3耗时”。这是个很有意思的对比实验,因此笔者也在一个小规模集群上做了一个微缩版的类似试验。原创 2015-01-03 21:45:02 · 7788 阅读 · 10 评论