spark官方文档翻译(最新)
古月慕南
这个作者很懒,什么都没留下…
展开
-
Spark2.1.0官方文档:快速开始-Quick Start
利用Spark Shell进行交互式分析基本操作更多关于的RDD操作使用缓存独立的应用程序下一步可以做什么本教程对于Spark的使用进行了简单的介绍。我们首先通过Spark的交互式shell环境介绍一些基础API的使用,然后展示如何使用Scala语言编写一个具体的应用。如果想要更详细的教程,请移步编程指南。如果想要亲自试试本篇中的例子,您需要从Spark翻译 2017-04-19 17:01:58 · 1637 阅读 · 0 评论 -
Spark集群硬件配置
本文翻译自Spark官方网站,原文链接:http://spark.apache.org/docs/latest/hardware-provisioning.html部分内容采用意译的方式翻译,如有疏漏错误之处,欢迎批评指正。Spark集群硬件配置Spark开发人员经常遇到的一个问题是如何为Spark集群配置硬件。 虽然正确的硬件配置将取决于具体情况,但我们给出以下几点建议。存储翻译 2017-05-02 13:34:48 · 3885 阅读 · 2 评论 -
Spark2.1.0文档:Spark Streaming 编程指南(下)-性能调优和容错语义
性能调优如果想要群集上的SparkStreaming应用程序中获得最佳性能,你需要进行一些优化操作。本节介绍了一些参数和配置,可以通过调整这些参数和配置以提高应用程序性能。在高层次上,你需要考虑两件事情:1、通过有效利用集群资源减少每批数据的处理时间。2、设置正确的batch size,使得每批数据的处理速度可以像接收速度那样快速(即数据处理与数据摄取保持一致)。减少批处理时间翻译 2017-05-10 18:23:01 · 2231 阅读 · 0 评论 -
Spark2.1.0文档:Spark编程指南-Spark Programming Guide
1 概述从一个较高的层次来看,每一个 Spark 应用程序由一个在集群上运行着用户的 main 函数和执行各种并行操作的driver program(驱动程序)组成。Spark 提供的主要抽象是一个弹性分布式数据集(RDD),它是可以执行并行操作且跨节点分布的元素的集合。我们可以通过三种方式得到一个RDD1、 可以从一个 Hadoop 文件系统(或者任何其它 Hadoop 支持的文件系翻译 2017-04-24 20:04:16 · 4454 阅读 · 5 评论 -
Spark2.1.0文档:Spark Streaming 编程指南(上)
本文翻译自spark官方文档,仅翻译了Scala API部分,目前版本为2.1.0,如有疏漏错误之处请多多指教。原文地址:http://spark.apache.org/docs/latest/streaming-programming-guide.html因文档篇幅较长故分为上下两篇,本文为上篇,主要包括概述、入门示例、基本概念三部分概述Spark Streaming是核翻译 2017-05-06 18:11:01 · 6052 阅读 · 0 评论