Spark流编程指引(三)-------------------------------------初始化StreamingContext

基本概念

接下来,我们在上一节例子的基础上,来阐述Spark Streaming的基本知识。


链接

和Spark类似,Spark Streaming也包含在maven的中央仓库中。为了写基于Spark Streaming的程序,你需要为你的SBT或Maven工程分别添加以下依懒:


Maven:

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming_2.10</artifactId>
    <version>1.4.0</version>
</dependency>

SBT:

libraryDependencies += "org.apache.spark" % "spark-streaming_2.10" % "1.4.0"

为了从Kafka, Flume, 和 Kinesis等源中提取数据,你需要添加额外的依懒。因为Spark Streaming的核心API并不直接支持。下面是一些常用的依懒:

SourceArtifact
Kafkaspark-streaming-kafka_2.10
Flumespark-streaming-flume_2.10
Kinesisspark-streaming-kinesis-asl_2.10 [Amazon Software License]
Twitterspark-streaming-twitter_2.10
ZeroMQspark-streaming-zeromq_2.10
MQTTspark-streaming-mqtt_2.10

要获得最新的列表,请在maven中央仓库Maven repository查看支持的源和坐标。


初始化StreamingContext

为了初始化一个Spark Streaming程序,需要创建一个StreamingContext对象,它是所有Spark Streaming功能的主入口点。

可以从一个SparkConf对象创建一个StreamingContext

import org.apache.spark._
import org.apache.spark.streaming._

val conf = new SparkConf().setAppName(appName).setMaster(master)
val ssc = new StreamingContext(conf, Seconds(1))

appName参数是你的应用程序在集群UI上的名字。master是Spark, Mesos或者YARN cluster 的URL,或者用"local[*]'字符串表示运行在本地模式。

在实践中,当在集群上运行程序时,你不希望硬编码master的值。你可以通过从spark-submit启动你的程序,并指明参数。然而,为了本地测试或者单元测试,你可以传递"local[*]”参数来运行Spark Streaming程序。注意,你可以通过ssc.SparkContext的方式来访问SparkContext.

批处理的间隔需要根据你的应用程序的延迟要求和可用的集群资源来设置。

SparkStreaming对象也可以由已经存在的SparkContext来创建:

import org.apache.spark.streaming._

val sc = ...                // existing SparkContext
val ssc = new StreamingContext(sc, Seconds(1))


在创建了context之后,你需要做以下几步:

1.通过创建输入DStreams来定义输入源

2.通过对DStreams应用转变操作和输出操作来定义流计算。

3.用streamingContext.start()来开始接收数据和处理流程。

4.通过streamingContext.awaitTermination()方法来等待处理结束(手动结束或因为错误)

5.还可以通过streamingContext.stop()来手动结束进程。


需要记住的关键点:

1.一旦context启动后,就不能再添加新的streaming计算或操作。

2.一旦context停止后,就不能再重新启动它了。

3.在同一时间内,一个JVM上只能运行一个StreamingContext

4.在StreamingContext上的stop()操作也会将SparkContext停止。如果只想停止StreamingContext,对stop的可选参数stopSparkContext设置为false.

5.一个SparkContext可以用来创建多个StreamingContext,只要前一个StreamingContext已经停止了。



  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

self-motivation

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值