Spark
steanxy
这个作者很懒,什么都没留下…
展开
-
Spark Streaming编程指南(一)
Spark Streaming是核心Spark API的扩展,对实时数据流地处理具有可扩展,高吞吐量和容错特性。数据可从很多源获取,如Kafka,Flume,Kinesis或者TCP sockets,并且可以使用复杂算法进行处理,用高层函数表示如map,reduce,join和window 。最后,处理结果可以输出到文件系统,数据库或者实时仪表盘。翻译 2017-06-22 14:28:38 · 433 阅读 · 0 评论 -
Spark Streaming编程指南(三)
DStreams转换TransformationDStreams输出操作DataFrame和SQL操作MLib操作翻译 2017-07-10 22:24:43 · 446 阅读 · 0 评论 -
Spark Streaming编程指南(四)
缓存持久化检查点累加器广播变量和检查点部署应用程序监控应用程序翻译 2017-07-10 22:26:41 · 367 阅读 · 0 评论 -
Spark Streaming + Kafka集成指南
本文适用于Kafka broker 0.8.2.1及更高版本。这里会说明如何配置Spark Streaming接收Kafka的数据。有两种方法 - 老方法使用Receiver和Kafka的高层API,新方法不适用Receiver。翻译 2017-06-28 19:56:48 · 599 阅读 · 0 评论 -
Spark编程指南(三)
共享变量广播变量累加器部署到集群从JavaScala运行Spark作业单元测试翻译 2017-06-18 14:56:13 · 1181 阅读 · 0 评论 -
Spark编程指南(一)
总体来说,每个Spark应用程序都包含一个`驱动程序`,运行了用户的`main`函数并且在集群上执行多种`并行操作`。翻译 2017-05-20 08:17:07 · 547 阅读 · 0 评论 -
Spark 2.1.0官方文档翻译
Apache Spark是一个快速的,通用的集群计算系统。在Java,Scala,Python和R语言中提供了高层API,并提供一个支持一般图形计算的优化引擎。Spark支持一个丰富的高层工具集,包括Spark SQL用于SQL和结构化数据处理,MLLib用于机器学习,GraphX用于图处理和Spark Streaming。翻译 2017-04-18 19:15:47 · 2343 阅读 · 0 评论 -
Spark快速开始
本文是一个如何使用Spark的简要教程。首先通过Spark的交互式Shell来介绍API(使用Python或Scala),然后展示如何用Java,Scala和Python来写Spark引用程序。翻译 2017-04-18 19:13:29 · 532 阅读 · 0 评论 -
Spark编程指南(二)
弹性分布式数据集。翻译 2017-05-23 15:25:30 · 523 阅读 · 0 评论 -
Spark Streaming编程指南(二)
连接初始化StreamingContext离散流DStreams输入DStreams和Receivers翻译 2017-06-27 23:19:25 · 534 阅读 · 0 评论