sparkstreaming对接kafka将数据批量插入数据库(java版本)

最新推荐文章于 2023-03-23 10:30:47 发布

置顶

luyanbin_lqq

最新推荐文章于 2023-03-23 10:30:47 发布

阅读量2.9k

点赞数 2

分类专栏： sparkstreaming 文章标签： sparkstreaming_kafka_java

本文链接：https://blog.csdn.net/luyanbin_lqq/article/details/98490225

版权

本文分享了如何使用SparkStreaming从Kafka获取数据流，并通过Java进行逻辑处理后，以批量方式（每批2000条）插入数据库。虽然没有使用数据库连接池，但介绍了批量插入相比逐条插入的优势，适用于大数据量场景。

摘要由CSDN通过智能技术生成

话不多说先上代码
sparkstreaming对接kafka在对数据流做相应的逻辑处理之后可以放到hdfs、数据库等处。之前因为有用到将数据插入数据库以检测性能，所以就拿出来给大家分享一下，本人大白一枚。。
说到数据插入数据库，对不同情况有不同方式：逐条插入，就是一条数据插入一次，调用一次数据库连接。当数据量大时，使用这种方法显然就不行了，最起码速度太慢了，而且还可能会因为过多数据库连接造成其他问题。这个时候可以用批量插入的方式。
批量插入：顾名思义就是一个批次一个批次的把数据插入到数据库中，本次示例按2000批量插入到数据库中，2000条数据调用一个数据库连接。
当然，我并没有用数据库连接池，只是测试使用就没弄，随便连的jdbc，感兴趣的可以用数据库连接池。

import DBUtils.Databases;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.common.TopicPartition;
import org.apache.kafka.common.serialization.StringDeserializer;
import org.apache.spark.SparkConf;
import org.apache.spark.TaskContext;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.streaming.Durations;
import org.apache.spark.streaming.api.java.JavaInputDStream;
import org.apache.spark.streaming.api.java.JavaPairDStream;
import org.apache.spark.streaming.api.java.JavaStreamingContext;
import org.apache.spark.streaming.kafka010.*;
import scala.Tuple2;

import java.sql.Connection;
import java.sql.PreparedStatement;
import java.sql.SQLException;
import java.text.ParseException;
import java.util.*;

public class NB_Test {
    public static void main (String[] args) throws InterruptedException {
        //创建conf对象，context对象以及流context对象
        SparkConf conf = new SparkConf().setAppName("kafka_Spark").setMaster("local[4]");
        JavaSparkContext sc = new JavaSparkContext(conf);
        JavaStreamingContext ssc = new JavaStreamingContext(sc, Durations.seconds(5));

        //创建map类型以传参
        Map<String,Object> kafkaParams = new HashMap<String, Object>();
        String brokers = "10.204.118.1