package com.gm.hive.SparkHive;
import java.util.Arrays;
import java.util.Collection;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.Properties;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.common.serialization.StringDeserializer;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.Optional;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.VoidFunction;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org
Sprak2.0 Streaming消费Kafka数据实时计算及运算结果保存数据库代码示例
最新推荐文章于 2021-05-05 09:48:23 发布
该示例展示了如何使用Spark2.0的Streaming功能从Kafka消费数据,进行实时计算,并将结果保存到PostgreSQL数据库。首先,配置Kafka连接参数,创建Spark Streaming Context,然后通过KafkaUtils创建直接流。接着,对数据进行扁平化、分组、累加操作。最后,将累加结果更新状态并打印,同时将结果转化为Row对象写入数据库。
摘要由CSDN通过智能技术生成