Flink维表join的常见方式

原创于 2025-12-01 18:49:35 发布 · 225 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#flink #大数据

1、预加载维表

通过定义一个类实现RichMapFunction，在open()中读取维表数据加载到内存中，在kafka流map()方法中与维表数据进行关联。

RichMapFunction中open方法里加载维表数据到内存的方式特点如下：

优点：实现简单
缺点：因为数据存于内存，所以只适合小数据量并且维表数据更新频率不高的情况下。虽然可以在open中定义一个定时器定时更新维表，但是还是存在维表更新不及时的情况。另外，维表是变化慢，不是一直不变的，只是变化比较缓慢而已。

import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.api.common.functions.RichMapFunction;
import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.connector.kafka.source.KafkaSource;
import org.apache.flink.connector.kafka.source.enumerator.initializer.OffsetsInitializer;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.ResultSet;
import java.util.HashMap;
import java.util.Map;

public class Demo04 {

    public static void main(String[] args) throws Exception {

        //1. env-准备环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        KafkaSource<String> source = KafkaSource.<String>builder()
                .setBootstrapServers("localhost:9092")
                .setTopics("first")
                .setGroupId("1")
                .setStartingOffsets(OffsetsInitializer.latest())
                .setValueOnlyDeserializer(new SimpleStringSchema())
                .build();

        DataStreamSource<String> dataStreamSource = env.fromSource(source, WatermarkStrategy.noWatermarks(), "Kafka Source");
        // 张三,1001
        dataStreamSource.map(new RichMapFunction<String, String>() {

            Connection conn = null;
            PreparedStatement ps = null;
            ResultSet resultSet =null;

            Map<String,String> map =new HashMap<String,String>();

            @Override
            public void open(Configuration parameters) throws Exception {
                // jdbc 纯代码
                // 这个里面编写连接数据库的代码
                Class.forName("com.mysql.jdbc.Driver");
                conn = DriverManager.getConnection("jdbc:mysql://localhost:3306/demo", "root", "123456");
                ps = conn.prepareStatement("select * from city ");
                resultSet = ps.executeQuery();
                while(resultSet.next()){
                   String cityId= resultSet.getString("city_id");
                   String cityName= resultSet.getString("city_name");
                    map.put(cityId,cityName);

                }

            }

            @Override
            public void close() throws Exception {
                resultSet.close();
                ps.close();
                conn.close();
            }

            @Override
            public String map(String value) throws Exception {

                String[] arr = value.split(",");
                String id= arr[1];

                String city = map.get(id);

                return value+","+city;
            }
        }).print();

        env.execute();
    }
}

如果数据多了，并且会更新可以改变查询sql

select * from city where city_id=?

以上做法成功解决了我们以前的两个问题：数据更新怎么办，数据多了怎么办。

但是缺点是每次都得查询数据库，非常不方便, 数据库的连接数量是有限的，很有可能将数据库搞崩溃。

2、热存储维表

以前的方式是将维表数据存储在Redis、HBase、MySQL等外部存储中，实时流在关联维表数据的时候实时去外部存储中查询，这种方式特点如下：

优点：维度数据量不受内存限制，可以存储很大的数据量。
缺点：因为维表数据在外部存储中，读取速度受制于外部存储的读取速度；另外维表的同步也有延迟。

(1) 使用cache来减轻访问压力

可以使用缓存来存储一部分常访问的维表数据，以减少访问外部系统的次数，比如使用Guava Cache。

import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.api.common.functions.RichMapFunction;
import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.connector.kafka.source.KafkaSource;
import org.apache.flink.connector.kafka.source.enumerator.initializer.OffsetsInitializer;
import org.apache.flink.shaded.guava30.com.google.common.cache.*;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.ResultSet;
import java.util.concurrent.TimeUnit;

public class Demo02 {

    public static void main(String[] args) throws Exception {

        //1. env-准备环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);
        KafkaSource<String> source = KafkaSource.<String>builder()
                .setBootstrapServers("localhost:9092")
                .setTopics("first")
                .setGroupId("1")
                .setStartingOffsets(OffsetsInitializer.latest())
                .setValueOnlyDeserializer(new SimpleStringSchema())
                .build();

        DataStreamSource<String> dataStreamSource = env.fromSource(source, WatermarkStrategy.noWatermarks(), "Kafka Source");
        // 张三,1001
        dataStreamSource.map(new RichMapFunction<String, String>() {

            Connection conn = null;
            PreparedStatement ps = null;
            ResultSet resultSet =null;

            // 定义一个Cache
            LoadingCache<String, String> cache;
            @Override
            public void open(Configuration parameters) throws Exception {
                // jdbc 纯代码
                // 这个里面编写连接数据库的代码
                Class.forName("com.mysql.jdbc.Driver");
                conn = DriverManager.getConnection("jdbc:mysql://localhost:3306/demo", "root", "123456");
                ps = conn.prepareStatement("select * from city where city_id=?");

                cache = CacheBuilder.newBuilder()
                        //最多缓存个数，超过了就根据最近最少使用算法来移除缓存 LRU
                        .maximumSize(1000)
                        //在更新后的指定时间后就回收
                        // 不会自动调用，而是当过期后，又用到了过期的key值数据才会触发的。
                        .expireAfterWrite(100, TimeUnit.SECONDS)
                        .build(//指定加载缓存的逻辑
                                new CacheLoader<String, String>() {
                                    // 假如缓存中没有数据，会触发该方法的执行，并将结果自动保存到缓存中
                                    @Override
                                    public String load(String cityId) throws Exception {
                                        System.out.println("进入数据库查询啦。。。。。。。");
                                        ps.setString(1,cityId);
                                        ResultSet resultSet = ps.executeQuery();
                                        String cityName = null;
                                        if(resultSet.next()){
                                            System.out.println("进入到了if中.....");
                                            cityName = resultSet.getString("city_name");
                                        }
                                        return cityName;
                                    }
                                });

            }

            @Override
            public void close() throws Exception {
                resultSet.close();
                ps.close();
                conn.close();
            }

            @Override
            public String map(String value) throws Exception {

                String[] arr = value.split(",");
                String id= arr[1];

                String cityName = cache.get(id);

                return value+","+cityName;
            }
        }).print();


        env.execute();
    }
}

3. 广播维表

实现原理：将维表数据作为广播流，与主流进行连接。

实现方式：

// 创建广播流 
BroadcastStream<DimData> broadcastStream = dimStream .broadcast(broadcastStateDescriptor); // 主流与广播流连接 
DataStream<Result> result = mainStream 
.connect(broadcastStream) 
.process(new BroadcastProcessFunction() { // 处理逻辑 });

适用场景：

维表数据量适中
维表变更需要实时生效
需要保持状态一致性

Flink维表join的常见方式

1、 预加载维表

2、 热存储维表

3. 广播维表

1、预加载维表

2、热存储维表