Spark_Streaming基本操作

最新推荐文章于 2022-05-01 12:11:56 发布

千年小妖L

最新推荐文章于 2022-05-01 12:11:56 发布

阅读量265

点赞数

文章标签：大数据 spark hadoop

本文链接：https://blog.csdn.net/weixin_42947670/article/details/108429522

版权

Spark Streaming 基本操作

一、案例引入

这里先引入一个基本的案例来演示流的创建：获取指定端口上的数据并进行词频统计。项目依赖和代码实现如下：

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming_2.12</artifactId>
    <version>2.4.3</version>
</dependency>

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{
   Seconds, StreamingContext}

object NetworkWordCount {
   

  def main(args: Array[String]) {
   

    /*指定时间间隔为 5s*/
    val sparkConf = new SparkConf().setAppName("NetworkWordCount").setMaster("local[2]")
    val ssc = new StreamingContext(sparkConf, Seconds(5))

    /*创建文本输入流,并进行词频统计*/
    val lines = ssc.socketTextStream("hadoop001", 9999)
    lines.flatMap(_.split(" ")).map(x => (x, 1)).reduceByKey(_ + _).print()

    /*启动服务*/
    ssc.start()
    /*等待服务结束*/
    ssc.awaitTermination()
  }
}

使用本地模式启动 Spark 程序，然后使用 nc -lk 9999 打开端口并输入测试数据：

[root@hadoop001 ~]#  nc -lk 9999
hello world hello spark hive hive hadoop
storm storm flink azkaban

下面针对示例代码进行讲解：

3.1 StreamingContext

Spark Streaming 编程的入口类是 StreamingContext，在创建时候需要指明 sparkConf 和 batchDuration(批次时间)，Spark 流处理本质是将流数据拆分为一个个批次，然后进行微批处理，batchDuration 就是批次拆分的时间间隔。这个时间可以根据业务需求和服务器性能进行指定ÿ

最低0.47元/天解锁文章

千年小妖L

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark_Streaming基本操作

Spark Streaming 基本操作一、案例引入        3.1 StreamingContext        3.2 数据源        3.3 服务的启动与停止二、Transformation    
复制链接

扫一扫