Sprak2.0 Streaming消费Kafka数据实时计算及运算结果保存数据库代码示例

最新推荐文章于 2021-05-05 09:48:23 发布

gmHappy

最新推荐文章于 2021-05-05 09:48:23 发布

阅读量2.9k

点赞数

分类专栏： Spark Kafka 大数据分布式框架大数据学习文章标签： spark2.0 kafaka 实时计算保存数据库 streaming

本文链接：https://blog.csdn.net/ctwy291314/article/details/80225533

版权

大数据学习同时被 3 个专栏收录

127 篇文章 97 订阅 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

大数据

17 篇文章 1 订阅

订阅专栏

Spark

11 篇文章 0 订阅

订阅专栏

该示例展示了如何使用Spark2.0的Streaming功能从Kafka消费数据，进行实时计算，并将结果保存到PostgreSQL数据库。首先，配置Kafka连接参数，创建Spark Streaming Context，然后通过KafkaUtils创建直接流。接着，对数据进行扁平化、分组、累加操作。最后，将累加结果更新状态并打印，同时将结果转化为Row对象写入数据库。

摘要由CSDN通过智能技术生成

package com.gm.hive.SparkHive;

import java.util.Arrays;
import java.util.Collection;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.Properties;

import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.common.serialization.StringDeserializer;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.Optional;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.VoidFunction;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org