Spark Streaming简介与代码实例

背景:

Spark Streaming是准实时流处理框架,处理响应时间一般以分钟为单位,处理实时数据的延迟时间一般是秒级别的;其他容易混淆的例如Storm实时流处理框架,处理响应是毫秒级。

在我们项目实施选择流框架时需要看具体业务场景:使用MapReduce和Spark进行大数据处理,能够解决很多生产环境下的计算问题,但是随着业务逐渐丰富,数据逐渐丰富,这种批处理在很多场景已经不能满足生产环境的需要了,体现例如①离线计算一般就会建立一个数据仓库,数据量大的情况下,计算耗时也会很长。②例如一个业务场景,需要在根绝客户访问一个网站时的浏览、点击行为,实时做出一些业务上的反馈,时延太长这个数据也流失了很多价值。③现在技术发展的需要,许多机器学习和人工智能应用需要大量的实时数据进行训练和优化。

数据是源源不断产生,计算程序也是一直存在的,即实时计算。

1.流式计算和批处理的关系

批处理和流式本来就存在某种微妙的关系,不是完全隔离的。Spark Streaming充分利用了这种微妙关系,将其发挥到极致。批量处理是Spark Streaming流式处理的一个窗口特别大的特例,实际上,如果我们定时执行某个Spark程序,或者每天执行一次,也相当于是流失计算,不过是以天为事件窗口。但是如果细加观察,Spark Streaming的每个batch又都是一个批处理,只是因为这个批处理可以足够小,看起来就像数据在真实流动一样,所以我们也称之为流式处理。

2.主流的流式计算框架

流式计算最具代表性的框架之一就是Storm。在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(Master node)分发代码,将任务分配给工作节点(Worker node)执行。一个拓扑中包括spout和bolt两种角色,其中spout发送消息,负责将数据流以tuple元组的形式发送出去;而bolt则负责转换这些数据流,在bolt中可以完成计算、过滤等操作,bolt自身也可以随机将数据发送给其他bolt。由spout发射出的tuple是不可变数组,对应着固定的键值对。

Spark Streaming是核心Spark API的一个扩展,它并不会像Storm那样一次一个地处理数据流,而是在处理前按时间间隔预先将其切分为一段一段的批处理作业。Spark针对持续性数据流的抽象称为DStream(DiscretizedStream),一个DStream是一个微批处理(micro-batching)的RDD(弹性分布式数据集);RDD则是一种分布式数据集,能够以两种方式并行运作,分别是任意函数和滑动窗口数据的转换。

除了Spark,Flink也是类似Spark的计算框架,Flink是一个针对流数据和批数据的分布式处理引擎。它主要是由Java代码实现。对Flink而言,其所要处理的主要场景就是流数据,批数据只是流数据的一个极限特例而已。Flink会把所有任务当成流来处理,这也是其最大的特点。Flink可以支持本地的快速迭代,以及一些环形的迭代任务,并且Flink可以定制化内存管理。在这点,如果要对比Flink和Spark的话,Flink并没有将内存完全交给应用层。这也是为什么Spark相对于Flink,更容易出现OOM的原因(out ofmemory)。就框架本身与应用场景来说,Flink更相似与Storm。

3.自定义流式计算举例

为了更好理解流式计算思想,我们来举例一个更具体的流式计算的程序。常见的实时计算需要有数据源、消息队列、数据处理。我们的数据源来自Socket,消息队列为了保证线程安全,我们使用Java自带的BlockingQueue,而数据处理就通过一个独立线程读取消息队列的内容处理,结果我们放在ConcurrentHashMap中,保证线程安全。

Spark Streaming的基本原理是将输入数据流以时间片(秒级)为单位进行拆分,然后以类似批处理的方式处理每个时间片数据,见下图:

首先,Spark Streaming把实时输入数据流以时间片Δt(如1秒)为单位切分成块。Spark Streaming会把每块数据作为一个RDD,并使用RDD操作处理每一小块数据。每个块都会生成一个Spark Job处理,最终结果也返回多个块。使用Spark Streaming编写的程序与编写Spark程序非常相似,在Spark程序中,主要通过操作RDD提供的接口,如Map、Reduce、Filter等,实现数据的批处理。而在Spark Streaming中,则通过操作DStream(表示数据流的RDD序列)提供的接口,这些接口和RDD提供的接口类似。下图显示了Spark Streaming程序到Spark Job的转换:

Spark Streaming把程序中对DStream的操作转换为DStream Graph,对于每个时间片,DSteam Graph都会产生一个RDD Graph;针对每个输出操作(如Print、Foreach等),SparkStreaming都会创建一个Spark Action;对于每个Spark Action,Spark Streaming都会产生一个相应的Spark Job,Spark会调度Task到相应的Spark Executor上执行。

Spark Streaming的一些常用组件如下:

1.StreamingContext:Spark Streaming中Driver端的上下文对象,初始化的时候会构造Spark Streaming应用程序需要使用的组件,比如DStreamGraph、JobScheduler 等

2.JobGenerator:主要是从DStream产生Job,且根据指定时间执行checkpoint。它维护着一个定时器,该定时器在批处理时间到来的时候会生成作业的操作。

3.JobScheduler:主要用于调度Job。JobScheduler主要通过JobGenerator产生Job,并且通过ReceiverTracker管理流数据接收器Receiver。

4.ReceiverTracker:管理各个Executor上的Receiver的元数据。它在启动的时候,需要根据流数据接收器Receiver分发策略通知对应的Executor中的ReceiverSupervisor(接收器管理着)启动,然后再由ReceiverSupervisor来启动对应节点的Receiver。

数据源:

数据源程序,使用Java编写一个程序,使用socket来向7777端口发送数据:

Package test;

import java.io.Bufferedwriter;

import java.io.IOException;

import java.io.Outputstream;

import java.net.ServerSocket;

import java.net.socket;

import java.io.Outputstreamwriter;



public class DataGenerator{

         public static void main(string[] args) throws IOException{

                  //设置发送端口为7777

                  ServerSocket ss = new ServerSocket(7777);

                  Socket accept = ss.accept();

                  Outputstream outputstream = accept.getoutputstream();

                  Bufferedwriter writer = new Bufferedwriter(new Outputstreamhriter(outputstream));

                  //发送的字符串

                  String[] words = new String[]{"hello Hadoop\n", "hello spark\n", "world hello\n", "hello\n", "hadoop\n"};

                  while (true){

                          try{

                                   Thread.sleep(1000);

                          }catch (InterruptedException e){

                         

                          }

                          //随机发送一个字符串

                          writer.write(words[(int)(Math.random() * 5)]);

                          writer.flush();

                  }

         }

}

数据接收处理:

import org.apache.spark.streaming.streamingContext

import org.apache.spark.streaming.streamingContext

import org.apache.spark.streaming.dstream.Dstream

import org.apache.spark.streaming.Duration

import org.apache.spark.streaming.seconds

import org.apache.spark.SparkContext

import org.apache.spark.SparkConf

import org.apache.spark. storage.storageLevel



val sparkconf = new SparkConf().setApplame("NetworkWordCount").setMaster("localhost")

//设置每秒处理一次

val ssc = new streamingContext(sc, Seconds(1))

//使用socket发送数据,ip为localhost,端门为7777

val lines =ssc.socketTextstream("localhost",7777,StorageLevel.MEMORY_AND_DISK_SER)

//flatMap以空格分隔

val words = lines.flatmap(_.split(" "))

//对每一组数据各个字符串数量累加

val wordCounts = words.map(x => (x,1)).reduceBykey(_+_)

//对每一组数据各个字符串数量累加,每10秒一次,统计最近30秒的结果

val wordCounts = words.map(x => (x,1)).reduceByKeyAndWindow((a:Int,b:Int) => (a+b),Seconds(30),Seconds(10))

//输出



wordCounts.print()

ssc.start()

ssc.awaitTermination()

运行数据源:

把刚刚的Java程序打包,用spark-submit执行,我们将打包好的程序放到某一个目录,例如/opt下,命名为hadoop-streaming.jar,使用spark-submit提交(命令制定类名、主机名、UI端口号、Jar包路径):

nohup .../你的路径/bin/spark-submit –class test.DataGenerator –master spark://localhost:9000 /opt/Hadoop-streaming.jar &

运行数据接收、处理程序:

进入spark-shell来运行上面写好的“数据接收处理”的代码,可收到结果。

  • 34
    点赞
  • 40
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Windows本地Spark Streaming开发环境搭建及简单实例: 1. 首先需要安装Java JDK和Scala,可以在官网上下载对应版本的安装包进行安装。 2. 下载Spark的二进制包,解压到本地目录。 3. 配置环境变量,将Spark的bin目录添加到PATH中。 4. 在本地启动Spark集群,可以使用以下命令: ``` spark-submit --class org.apache.spark.examples.streaming.NetworkWordCount --master local[2] %SPARK_HOME%\examples\jars\spark-examples_2.11-2.4.0.jar localhost 9999 ``` 这个命令会启动一个本地的Spark集群,并运行一个简单的Spark Streaming应用程序,它会从本地的9999端口接收数据,并对数据进行实时计算。 5. 在另一个命令行窗口中,使用以下命令向Spark Streaming应用程序发送数据: ``` nc -lk 9999 ``` 这个命令会启动一个本地的Netcat服务器,它会将输入的数据发送到9999端口。 6. 在Spark Streaming应用程序的控制台输出中,可以看到实时计算的结果。 以上就是在Windows本地搭建Spark Streaming开发环境及简单实例的步骤。 ### 回答2: 搭建windows本地Spark Streaming开发环境需要准备以下几个步骤: 一、安装Java 需要先安装Java作为Spark的运行环境,推荐安装Java8及以上的版本,可以通过官方网站下载安装包。 二、安装Spark 官方网站提供了Spark的下载地址,选择合适的版本进行下载,并解压缩到本地硬盘上。 三、安装Python 需要安装Python来运行Spark Streaming的示例程序,如果已经安装了Anaconda,则可以直接使用。 四、安装PySpark PySparkSpark的Python版,需要用pip安装,安装命令: pip install pyspark 搭建好本地开发环境之后,可以编写Spark Streaming的简单示例程序。 首先,需要导入相应的库: from pyspark.streaming import StreamingContext from pyspark import SparkContext 接下来,定义StreamingContext,设置批次时间,Spark Streaming的数据输入源等: sc = SparkContext(appName="PythonStreamingQueueStream") ssc = StreamingContext(sc, 1) rddQueue = [] inputStream = ssc.queueStream(rddQueue) 接下来,可以定义数据处理函数,并对输入源进行处理: def process(time, rdd): print("========= %s =========" % str(time)) try: if not rdd.isEmpty(): count = rdd.count() print("Word count in this batch: ", count) except Exception as e: print(e) inputStream.foreachRDD(process) 最后,需要启动StreamingContext,并将输入源写入队列: ssc.start() for i in range(5): rddQueue.append(sc.parallelize(["hello world"] * 10)) time.sleep(1) ssc.stop(stopSparkContext=True, stopGraceFully=True) 以上就是简单的Spark Streaming示例程序,可以通过这个示例进一步了解Spark Streaming的开发环境搭建和基本的使用。 ### 回答3: Spark是一个快速、通用和可扩展的计算引擎,支持在线数据处理。Spark StreamingSpark生态系统中的一个组件,允许对实时数据进行流式处理和分析。在本地环境下进行Spark Streaming开发需要进行如下步骤: 1. 安装Java JDK和Scala环境 Spark需要Java JDK和Scala环境来运行。可以从Oracle官方网站下载Java JDK,在Scala官方网站下载Scala环境。 2. 下载Spark并解压缩 从Spark官方网站下载Spark,并解压缩到本地目录。 3. 配置环境变量 在环境变量中配置SPARK_HOME、JAVA_HOME、SCALA_HOME和PATH变量,以便在命令行中启动Spark。 4. 编写Spark Streaming应用程序 可以使用Scala编写Spark Streaming应用程序。在Spark Streaming中,可以使用DStreams(离散流)来处理数据。 5. 运行Spark Streaming应用程序 使用命令行启动Spark Streaming应用程序,可以使用Spark submit命令。例如,可以使用以下命令启动应用程序: ``` $SPARK_HOME/bin/spark-submit --class com.example.MyApp myapp.jar ``` 其中“com.example.MyApp”是程序入口类,myapp.jar是打包后的应用程序包。 简单实例: 以下是使用Spark Streaming进行单词计数的示例: ```scala import org.apache.spark._ import org.apache.spark.streaming._ object WordCount { def main(args: Array[String]) { val conf = new SparkConf().setAppName("WordCount") val ssc = new StreamingContext(conf, Seconds(1)) val lines = ssc.socketTextStream("localhost", 9999) val words = lines.flatMap(_.split(" ")) val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _) wordCounts.print() ssc.start() ssc.awaitTermination() } } ``` 该应用程序从本地套接字上读取数据流,并计算每个单词出现的次数。在命令行中可以使用以下命令启动该应用程序: ``` $SPARK_HOME/bin/spark-submit --class WordCount \ --master local[2] wordcount.jar localhost 9999 ``` 其中,--master local[2] 指定使用本地模式,并使用2个CPU核心。localhost 9999是要从上面读取数据的本地套接字。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值