spark 学习专辑
文章平均质量分 96
该昵称已经被占用
这个作者很懒,什么都没留下…
展开
-
Spark:一个高效的分布式计算系统
概述什么是Spark?Spark 是 UC Berkeley AMP lab 所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习转载 2015-10-14 07:52:06 · 1350 阅读 · 0 评论 -
Spark 概述与编程模型
Mesos 与 yarn 类似 国内用 yarn 比较多Tachyan 是分布式内存文件系统,并不仅支持 spark,也支持map-reducehadoop2.3.0 的datanode 也支持 cache(重大改进)Spark Streaming Stream processing 是实时流处理GraphX 是个图处理MLbase 是个机器学习库Shark SQL AP原创 2015-10-13 22:43:43 · 1117 阅读 · 1 评论 -
Spark 同步提交应用/多文件输出
spark 怎么同步提交应用? 请问,spark 怎么同步提交应用?我知道可以sparksubmit,但怎么知道应用执行成功和失败?解决给楼主举个例子spark 提交到yarn 在命令行输入如下命令:./spark-submit --class SparkSQLTest --master spark:hadoop1:7077 --executor-memory 2g --转载 2015-10-14 07:59:36 · 1443 阅读 · 0 评论 -
Apache Spark入门攻略
前言 时至今日,Spark已成为大数据领域最火的一个开源项目,具备高性能、易于使用等特性。然而作为一个年轻的开源项目,其使用上存在的挑战亦不可为不大,这里为大家分享SciSpike软件架构师Ashwini Kuntamukkala在Dzone上进行的Spark入门总结(虽然有些地方基于的是Spark 1.0版本,但仍然值得阅读)—— Apache Spark:An Engine for La转载 2015-10-13 21:05:19 · 716 阅读 · 0 评论 -
spark-1.4.1-bin-cdh5.3.2 Maven编译
spark-1.4.1-bin-cdh5.3.2 Maven编译原创 2015-10-26 17:37:34 · 6130 阅读 · 0 评论 -
Spark1.1.0 源码编译和部署包生成
本文转至 《Spark1.1.0 源码编译和部署包生成 》:http://blog.csdn.net/book_mmicky/article/details/25714445虽然是转载的,但是笔者也尝试了其中的 Maven 编译方法,成功,并附上笔者成功的图片,及补充。一、编译方式介绍Spark1.1.0的源码编译和部署包生成,其本质只有两种:Maven和SBT,只不过针对不同场景而已:Maven转载 2015-10-26 15:00:56 · 893 阅读 · 0 评论 -
[翻译 by Zephyr] README In Spark Building
一、Apache SparkSpark 是大数据的一个快速通用集群计算系统。它提供了高效的 Scala,Java 和 Python 的 API ,并且提供数据分析的通用计算图形优化引擎。同时,它也支持一系列丰富高水平的工具,包括用于 SQL 的 Spark SQL 和数据结构处理,用于机器学习的 MLlib,用于图形处理的 GraphX ,和 实时流处理的 Spark Streaming。具体可参原创 2015-10-26 10:09:17 · 464 阅读 · 0 评论 -
Spark1.0.2 Standalone 模式部署
节点说明 IP 用户名 主机名 角色 10.6.2.109 hadoop client Spark客户端 10.6.2.111 hadoop master HDFS(NameNode,SecondNameNode);Spark(Master,Worker) 10.6.2.112 hadoop worker1 HD转载 2015-10-09 22:01:23 · 505 阅读 · 0 评论 -
Spark1.4.1 编程指南 (Scala/Java/Python)
官网原文地址:http://spark.apache.org/docs/1.4.1/programming-guide.html一 概述二 连接Spark三 初始化Spark1 使用命令行四 弹性分布式数据集RDD1 并行化集合2 外部数据集3 RDD操作I 基本操作II 向Spark传递函数III 理解 closuresIV 使用键值对V 转化操作VI 启动 Action翻译 2015-11-07 13:32:14 · 2422 阅读 · 0 评论 -
Spark 官方文档翻译——《Spark编译》
导言:笔者用极烂的英语,翻译了 Spark 官网上关于编译的介绍——Building Spark,链接:http://spark.apache.org/docs/latest/building-spark.html ,以帮助那些英语比本人更烂及懒得阅读英文献的 person。编译 Spark 的环境要求:Maven 3.3.3 或更新 (撰写该博客时,笔者看着只有 3.2.1 版本的 M翻译 2015-11-04 19:13:55 · 2580 阅读 · 1 评论