示例：Spark Streaming+Flume整合

最新推荐文章于 2019-08-23 13:58:26 发布

drl_blogs

最新推荐文章于 2019-08-23 13:58:26 发布

阅读量248

点赞数

分类专栏： # Flume # Spark

本文链接：https://blog.csdn.net/drl_blogs/article/details/94385752

版权

Spark 同时被 2 个专栏收录

19 篇文章 0 订阅

订阅专栏

Flume

5 篇文章 0 订阅

订阅专栏

文章目录

- - push
  - pull

push

import org.apache.log4j.{Level, Logger}
import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.ReceiverInputDStream
import org.apache.spark.streaming.flume.{FlumeUtils, SparkFlumeEvent}
import org.apache.spark.streaming.{Seconds, StreamingContext}

object flume_push_streaming {
  Logger.getLogger("org").setLevel(Level.WARN)
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setAppName("flume_push_streaming").setMaster("local[*]")
    val ssc = new StreamingContext(sparkConf, Seconds(5))

    val flumeStreaming: ReceiverInputDStream[SparkFlumeEvent] = FlumeUtils.createStream(ssc, "本地ip", 41414)
    flumeStreaming.map(x => new String(x.event.getBody.array()).trim).flatMap(_.split(" ")).map(x => (x, 1)).reduceByKey(_ + _).print()

    ssc.start()
    ssc.awaitTermination()
  }
}

启动：

启动程序
编写 flume_push_streaming.conf 并启动flume (示例)
启动telnet 虚拟机主机名(hadoop01) 44444 输入测试数据
查看程序运行窗口是否有结果

pull

import org.apache.log4j.{Level, Logger}
import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.ReceiverInputDStream
import org.apache.spark.streaming.flume.{FlumeUtils, SparkFlumeEvent}
import org.apache.spark.streaming.{Seconds, StreamingContext}

object flume_pull_streaming {
  Logger.getLogger("org").setLevel(Level.WARN)
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setAppName("flume_pull_streaming").setMaster("local[*]")
    val ssc = new StreamingContext(sparkConf, Seconds(5))

    val flumeStreaming: ReceiverInputDStream[SparkFlumeEvent] = FlumeUtils.createPollingStream(ssc, "hadoop01", 41414)
    flumeStreaming.map(x => new String(x.event.getBody.array()).trim).flatMap(_.split(" ")).map(x => (x, 1)).reduceByKey(_ + _).print()

    ssc.start()
    ssc.awaitTermination()
  }
}