spark
无尴尬不青春
关注大数据前沿技术
展开
-
Spark提交应用(Submitting Applications)
提交应用(Submitting Applications)用spark的bin目录下的spark-submit脚本在集群上启动应用。它可以通过统一的接口来管理spark所支持的cluster managers,所以不需要为每一个应用做特殊的配置。打包程序(Bundling Your Application’s Dependencies)如果你的代码依赖于其他项目,需要将应用程序打包才能在集群上分发代原创 2016-09-19 16:27:06 · 2445 阅读 · 0 评论 -
Spark 核心 RDD 剖析(上)
本文将通过描述 Spark RDD 的五大核心要素来描述 RDD,若希望更全面了解 RDD 的知识,请移步 RDD 论文:RDD:基于内存的集群计算容错抽象 Spark 的五大核心要素包括: partitionpartitionercompute funcdependencypreferredLocation 下面一一来介绍 (一): partition partition 个数怎么转载 2016-09-21 14:07:28 · 1291 阅读 · 0 评论 -
Spark 核心 RDD 剖析(下)
上文Spark 核心 RDD 剖析(上)介绍了 RDD 两个重要要素:partition 和 partitioner。这篇文章将介绍剩余的部分,即 compute func、dependency、preferedLocation compute func 在前一篇文章中提到,当调用 RDD#iterator 方法无法从缓存或 checkpoint 中获取指定 partition 的迭代器时,就转载 2016-09-21 14:11:48 · 560 阅读 · 0 评论 -
StructuredStreaming官方文档翻译
structured streaming是一种基于Spark SQL引擎构建的可扩展且容错的流处理引擎。 您可以以静态数据表示批量计算的方式来表达流式计算。 Spark SQL引擎将随着流式传输数据持续到达而逐渐持续运行,并更新最终结果。翻译 2017-06-28 14:50:31 · 1602 阅读 · 0 评论