spark官方文档之——Spark Streaming Programming Guid spark streaming编程指南

翻译 2015年07月07日 15:42:51


概述

spark streaming是core spark api的扩展,能够进行可伸缩的、高通量、容错的实时流处理。数据可来源于kafka,flume,twitter,zeromq,kinesis或tcp sockets,基于这些数据的复杂算法可用高层次函数,像map,reduce,join和window进行处理。最后,处理过的数据可被存储到文件系统,数据库和实时仪表盘上。实际上,你可以在数据流上进行spark的machine learning和graph processing。

它如下图工作。spark streaming接收到实时输入数据流,并把数据分批次,这些数据会被spark引擎分批次处理得到最后的结果。


spark streaming提供了一个高层次的抽象概念,称为分布式流或DStream,它代表一个源源不断的数据流。DStreams可以从像kafka,flume和kinesis的数据源创建得到,也可以在其他DStreams进行操作得到。DStream内部是一系列RDDs。

本指南向你展示了怎样用DStream来编写spark streaming程序。你可以用scala,java或python(spark 1.2引入)写spark streaming程序。(官方所有语言都有,但这里只翻译java版本)

一个例子

在怎样写你自己的spark streaming程序之前,让我们先看一下简单的spark streaming程序都长啥样。我们要计算监听一个tcp socket得到的文本数据的单词数,如下进行:

java:

首先,我们创建JavaStreamingContext对象,它是所有流处理函数的主要入口点。我们创建一个本地StreamingContext,两个线程运行,并间隔1s一个处理批次(接受1s的数据处理一次)。
import org.apache.spark.*;
import org.apache.spark.api.java.function.*;
import org.apache.spark.streaming.*;
import org.apache.spark.streaming.api.java.*;
import scala.Tuple2;

// Create a local StreamingContext with two working thread and batch interval of 1 second
SparkConf conf = new SparkConf().setMaster("local[2]").setAppName("NetworkWordCount")
JavaStreamingContext jssc = new JavaStreamingContext(conf, Durations.seconds(1))
使用这个context,我们可以创建一个数据流DStream,它来自于tcp source,并指定了主机名(例如localhost)和端口(例如9999)。
// Create a DStream that will connect to hostname:port, like localhost:9999
JavaReceiverInputDStream<String> lines = jssc.socketTextStream("localhost", 9999);
lines代表接收自数据服务器的数据流。这个流中的每个记录是一个文本行。然后,我们想把这行文本分离成单词。
// Split each line into words
JavaDStream<String> words = lines.flatMap(
  new FlatMapFunction<String, String>() {
    @Override public Iterable<String> call(String x) {
      return Arrays.asList(x.split(" "));
    }
  });
flatMap是创建一个新的DStream的DStream操作,它从源DStream的每个记录生成多个新的记录。在这种情况下,每行会被分成多个单词,由words表示。注意我们用FlatMapFunction对象定义了此转换过程。java api中还有很多这种类来帮助定义DStream transformtions。
接下来,我们想要计算单词数。
// Count each word in each batch
JavaPairDStream<String, Integer> pairs = words.mapToPair(
  new PairFunction<String, String, Integer>() {
    @Override public Tuple2<String, Integer> call(String s) {
      return new Tuple2<String, Integer>(s, 1);
    }
  });
JavaPairDStream<String, Integer> wordCounts = pairs.reduceByKey(
  new Function2<Integer, Integer, Integer>() {
    @Override public Integer call(Integer i1, Integer i2) {
      return i1 + i2;
    }
  });

// Print the first ten elements of each RDD generated in this DStream to the console
wordCounts.print();
words通过使用PairFunction对象,被映射(one-to-one的转换)为(word,1)键值对DStream。然后,使用Function2对象计算每个数据批次的单词数。最后,wordCounts.print()会每秒打印一些单词数。
注意,spark streaming start之后这些代码行才执行。为了所有被建立的转换被执行,我们最后要调用start方法。

jssc.start();              // Start the computation
jssc.awaitTermination();   // Wait for the computation to terminate
完整的代码可在https://github.com/apache/spark/blob/master/examples/src/main/java/org/apache/spark/examples/streaming/JavaNetworkWordCount.java找到。
如果你已经下载并搭建了spark,你可以如下运行例程。你要首先运行Netcat(多数unix-like系统中有的小工具)作为数据服务器:
$ nc -lk 9999
然后,另一个终端中,如下开始例程:
$ ./bin/run-example streaming.JavaNetworkWordCount localhost 9999
然后,运行netcat服务的终端输入的行都会每秒被计算一次并打印在屏幕上,如下:


基本概念

接下来,详细讨论spark streaming的基础。

Linking

写spark streaming程序时,你要添加如下依赖库到你的SBT或Maven工程。

maven:
<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming_2.10</artifactId>
    <version>1.4.0</version>
</dependency>
sbt:
libraryDependencies += "org.apache.spark" % "spark-streaming_2.10" % "1.4.0"
若想使用来源于像kafka,flume,kinesis这些不存在于spark streaming api中的数据,你需要增加一些依赖库,例如如下一些:
Source Artifact
Kafka spark-streaming-kafka_2.10
Flume spark-streaming-flume_2.10
Kinesis spark-streaming-kinesis-asl_2.10 [Amazon Software License]
Twitter spark-streaming-twitter_2.10
ZeroMQ spark-streaming-zeromq_2.10
MQTT spark-streaming-mqtt_2.10

初始化StreamingContext

初始化一个spark streaming程序,必须创建StreamingContext对象,它是所有spark streaming函数功能的主要入口点。
java:
JavaStreamingContext对象能够从一个SparkConf对象创建而来。
import org.apache.spark.*;
import org.apache.spark.streaming.api.java.*;

SparkConf conf = new SparkConf().setAppName(appName).setMaster(master);
JavaStreamingContext ssc = new JavaStreamingContext(conf, Duration(1000));
appName是显示在集群UI上的程序名。master是一个spark,mesos或yarn集群URL,或“local[n]”字符串(运行在本地模式)。实际上,当在一个集群上运行时,你不会想要把master硬编码到程序中,而是spark-submit指定。但是,对于本地测试和单元测试,你可以通过“local[n]”在一个进程中运行spark streaming(多个线程模拟集群)。注意,ssc.sparkContext可访问JavaSparkContext(所有spark功能函数的入口点)。
batch间隔要根据你的应用的延迟需要和可获得的集群资源来设置。更多请参考performance tuning章节。
JavaStreamingContext可从一个存在的JavaSparkContext对象创建。
import org.apache.spark.streaming.api.java.*;

JavaSparkContext sc = ...   //existing JavaSparkContext
JavaStreamingContext ssc = new JavaStreamingContext(sc, Durations.seconds(1));
在context创建之后,你要如下进行:
1.通过创建输入DStreams定义输入数据源。
2.
未完待续········

Spark2.1.0文档:Spark Streaming 编程指南(上)

本文翻译自spark官方文档,仅翻译了Scala API部分,目前版本为2.1.0,如有疏漏错误之处请多多指教。 原文地址:http://spark.apache.org/docs/latest/st...
  • u013468917
  • u013468917
  • 2017年05月06日 18:11
  • 2157

Spark Streaming源码解读之Job详解

一:Spark Streaming Job生成深度思考 1. 做大数据例如Hadoop,Spark等,如果不是流处理的话,一般会有定时任务。例如10分钟触发一次,1个小时触发一次,这就是做流处理的...
  • snail_gesture
  • snail_gesture
  • 2016年05月15日 16:53
  • 12793

Spark Streaming 流计算优化记录(5)-分区与内存的优化

关于Spark Streaming优化的各种叽里呱啦记录, 这一次是从跑不动, 一直优化到能每秒解决6万条输入消息以及3G数据的Inner Join. 大数据,流计算,spark,kafka,hado...
  • butterluo
  • butterluo
  • 2015年07月27日 14:38
  • 2027

Spark修炼之道(进阶篇)——Spark入门到精通:第十节 Spark Streaming(一)

本节主要内容本节部分内容来自官方文档:http://spark.apache.org/docs/latest/streaming-programming-guide.html#mllib-operat...
  • lovehuangjiaju
  • lovehuangjiaju
  • 2015年11月21日 22:34
  • 9109

Spark Streaming的窗口操作

1.Spark Streaming的Window Operation可以理解为定时的进行一定时间段内的数据的处理。...
  • u014388509
  • u014388509
  • 2014年04月15日 18:16
  • 17238

spark streaming三种应用场景

Spark Streaming共有三种运用场景,分为:无状态操作、状态操作、window操作。下面分别描述下本人对这三种运用场景的理解。 1、无状态操作          只关注当前新生成的小批次...
  • fz2543122681
  • fz2543122681
  • 2016年09月08日 00:12
  • 2781

Scala和Java二种方式实战Spark Streaming开发

在这里我主要借鉴课上老师讲的以及官网的API来进行简单的Spark Streaming的开发:一:java形式:1.我们可以总结一下步骤:第一步:创建SparkConf对象 第二步:创建SparkS...
  • erfucun
  • erfucun
  • 2016年08月18日 16:12
  • 2562

Spark Streaming基础概念介绍

有很多文章讲解storm与spark streaming的区别,都非常详细。 本文就介绍一下spark streaming比较重要的概念 Storm可以实现亚秒级时延的处理,而每次只处理一条even...
  • yueqian_zhu
  • yueqian_zhu
  • 2015年09月29日 09:19
  • 1163

Spark定制班第29课:深入理解Spark 2.x中的Structured Streaming内幕

本期内容: 1. 新型的Spark Streaming思维 2. Structured Streaming内幕 Spark 2.0 仍有bug,不适合于生成环境。只用于测试。 Spar...
  • andyshar
  • andyshar
  • 2016年06月24日 10:10
  • 1662

30分钟概览Spark Streaming 实时计算

本文主要介绍四个问题: 什么是Spark Streaming实时计算? Spark实时计算原理流程是什么? Spark 2.X下一代实时计算框架Structured Streaming Spark S...
  • xwc35047
  • xwc35047
  • 2017年02月18日 17:12
  • 4473
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:spark官方文档之——Spark Streaming Programming Guid spark streaming编程指南
举报原因:
原因补充:

(最多只允许输入30个字)