spark-streaming 消费kafka数据

最新推荐文章于 2022-11-28 20:10:41 发布

我终于有blog了

最新推荐文章于 2022-11-28 20:10:41 发布

阅读量631

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/qq_29493353/article/details/80651865

版权

spark 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

首先安装hadoop spark集群。

接下来是代码：

String brokers = "***:9098,***:9098";
String topics = "mail_send_click_test";
SparkConf conf = new SparkConf().setMaster("local[2]").setAppName("streaming word count");
JavaSparkContext sc = new JavaSparkContext(conf);
sc.setLogLevel("WARN");
JavaStreamingContext ssc = new JavaStreamingContext(sc, Durations.seconds(1));

Collection<String> topicsSet = new HashSet<>(Arrays.asList(topics.split(",")));
//kafka相关参数，必要！缺了会报错
Map<String, Object> kafkaParams = new HashMap<>();
kafkaParams.put("metadata.broker.list", brokers) ;
kafkaParams.put("bootstrap.servers", brokers);
kafkaParams.put("group.id", "spark_test");
kafkaParams.put("auto.offset.reset","latest");
kafkaParams.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
kafkaParams.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
kafkaParams.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
//Topic分区
Map<TopicPartition, Long> offsets = new HashMap<>();
offsets.put(new TopicPartition("mail_send_click_test", 0), 300415L);
//通过KafkaUtils.createDirectStream(...)获得kafka数据，kafka相关参数由kafkaParams指定
try {
JavaInputDStream<ConsumerRecord<Object,Object>> lines = KafkaUtils.createDirectStream(
ssc,
LocationStrategies.PreferConsistent(),
ConsumerStrategies.Subscribe(topicsSet, kafkaParams, offsets)
);
//这里就跟之前的demo一样了，只是需要注意这边的lines里的参数本身是个ConsumerRecord对象
JavaPairDStream<String, Integer> counts =
lines.flatMap(x -> Arrays.asList(x.value().toString().split(" ")).iterator())
.mapToPair(x -> new Tuple2<String, Integer>(x, 1))
.reduceByKey((x, y) -> x + y);
counts.print();
ssc.start();
ssc.awaitTermination();
}catch(Exception e) {
System.out.println(e);

}

pom:

<dependencies>
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>3.8.1</version>
<scope>test</scope>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-streaming-kafka-0-10_2.11</artifactId>
<version>2.3.0</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-streaming_2.11</artifactId>
<version>2.3.0</version>
<scope>provided</scope>
</dependency>
</dependencies>
<build>
<plugins>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-compiler-plugin</artifactId>
<version>3.3</version>
<configuration>
<source>1.8</source>
<target>1.8</target>
</configuration>
</plugin>
<plugin>
<artifactId>maven-assembly-plugin</artifactId>
<version>2.6</version>
<configuration>
<descriptorRefs>
<descriptorRef>jar-with-dependencies</descriptorRef>
</descriptorRefs>
</configuration>
</plugin>
</plugins>

</build>

提交代码：

spark-submit --master yarn --class xxx.xxx.app ***.jar

问题：offest的持久化，以便job因为offest out of range报错导致退出。

我终于有blog了

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark-streaming 消费kafka数据

首先安装hadoop spark集群。接下来是代码： String brokers = "***:9098,***:9098"; String topics = "mail_send_click_test"; SparkConf conf = new SparkConf().setMaster("local[2]").setAppName("streaming ...
复制链接

扫一扫

专栏目录