1、 预加载维表
通过定义一个类实现RichMapFunction,在open()中读取维表数据加载到内存中,在kafka流map()方法中与维表数据进行关联。
RichMapFunction中open方法里加载维表数据到内存的方式特点如下:
- 优点:实现简单
- 缺点:因为数据存于内存,所以只适合小数据量并且维表数据更新频率不高的情况下。虽然可以在open中定义一个定时器定时更新维表,但是还是存在维表更新不及时的情况。另外,维表是变化慢,不是一直不变的,只是变化比较缓慢而已。
import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.api.common.functions.RichMapFunction;
import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.connector.kafka.source.KafkaSource;
import org.apache.flink.connector.kafka.source.enumerator.initializer.OffsetsInitializer;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.ResultSet;
import java.util.HashMap;
import java.util.Map;
public class Demo04 {
public static void main(String[] args) throws Exception {
//1. env-准备环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
KafkaSource<String> source = KafkaSource.<String>builder()
.setBootstrapServers("localhost:9092")
.setTopics("first")
.setGroupId("1")
.setStartingOffsets(OffsetsInitializer.latest())
.setValueOnlyDeserializer(new SimpleStringSchema())
.build();
DataStreamSource<String> dataStreamSource = env.fromSource(source, WatermarkStrategy.noWatermarks(), "Kafka Source");
// 张三,1001
dataStreamSource.map(new RichMapFunction<String, String>() {
Connection conn = null;
PreparedStatement ps = null;
ResultSet resultSet =null;
Map<String,String> map =new HashMap<String,String>();
@Override
public void open(Configuration parameters) throws Exception {
// jdbc 纯代码
// 这个里面编写连接数据库的代码
Class.forName("com.mysql.jdbc.Driver");
conn = DriverManager.getConnection("jdbc:mysql://localhost:3306/demo", "root", "123456");
ps = conn.prepareStatement("select * from city ");
resultSet = ps.executeQuery();
while(resultSet.next()){
String cityId= resultSet.getString("city_id");
String cityName= resultSet.getString("city_name");
map.put(cityId,cityName);
}
}
@Override
public void close() throws Exception {
resultSet.close();
ps.close();
conn.close();
}
@Override
public String map(String value) throws Exception {
String[] arr = value.split(",");
String id= arr[1];
String city = map.get(id);
return value+","+city;
}
}).print();
env.execute();
}
}
如果数据多了,并且会更新可以改变查询sql
select * from city where city_id=?
以上做法成功解决了我们以前的两个问题:数据更新怎么办,数据多了怎么办。
但是缺点是每次都得查询数据库,非常不方便, 数据库的连接数量是有限的,很有可能将数据库搞崩溃。
2、 热存储维表
以前的方式是将维表数据存储在Redis、HBase、MySQL等外部存储中,实时流在关联维表数据的时候实时去外部存储中查询,这种方式特点如下:
- 优点:维度数据量不受内存限制,可以存储很大的数据量。
- 缺点:因为维表数据在外部存储中,读取速度受制于外部存储的读取速度;另外维表的同步也有延迟。
(1) 使用cache来减轻访问压力
可以使用缓存来存储一部分常访问的维表数据,以减少访问外部系统的次数,比如使用Guava Cache。
import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.api.common.functions.RichMapFunction;
import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.connector.kafka.source.KafkaSource;
import org.apache.flink.connector.kafka.source.enumerator.initializer.OffsetsInitializer;
import org.apache.flink.shaded.guava30.com.google.common.cache.*;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.ResultSet;
import java.util.concurrent.TimeUnit;
public class Demo02 {
public static void main(String[] args) throws Exception {
//1. env-准备环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(1);
KafkaSource<String> source = KafkaSource.<String>builder()
.setBootstrapServers("localhost:9092")
.setTopics("first")
.setGroupId("1")
.setStartingOffsets(OffsetsInitializer.latest())
.setValueOnlyDeserializer(new SimpleStringSchema())
.build();
DataStreamSource<String> dataStreamSource = env.fromSource(source, WatermarkStrategy.noWatermarks(), "Kafka Source");
// 张三,1001
dataStreamSource.map(new RichMapFunction<String, String>() {
Connection conn = null;
PreparedStatement ps = null;
ResultSet resultSet =null;
// 定义一个Cache
LoadingCache<String, String> cache;
@Override
public void open(Configuration parameters) throws Exception {
// jdbc 纯代码
// 这个里面编写连接数据库的代码
Class.forName("com.mysql.jdbc.Driver");
conn = DriverManager.getConnection("jdbc:mysql://localhost:3306/demo", "root", "123456");
ps = conn.prepareStatement("select * from city where city_id=?");
cache = CacheBuilder.newBuilder()
//最多缓存个数,超过了就根据最近最少使用算法来移除缓存 LRU
.maximumSize(1000)
//在更新后的指定时间后就回收
// 不会自动调用,而是当过期后,又用到了过期的key值数据才会触发的。
.expireAfterWrite(100, TimeUnit.SECONDS)
.build(//指定加载缓存的逻辑
new CacheLoader<String, String>() {
// 假如缓存中没有数据,会触发该方法的执行,并将结果自动保存到缓存中
@Override
public String load(String cityId) throws Exception {
System.out.println("进入数据库查询啦。。。。。。。");
ps.setString(1,cityId);
ResultSet resultSet = ps.executeQuery();
String cityName = null;
if(resultSet.next()){
System.out.println("进入到了if中.....");
cityName = resultSet.getString("city_name");
}
return cityName;
}
});
}
@Override
public void close() throws Exception {
resultSet.close();
ps.close();
conn.close();
}
@Override
public String map(String value) throws Exception {
String[] arr = value.split(",");
String id= arr[1];
String cityName = cache.get(id);
return value+","+cityName;
}
}).print();
env.execute();
}
}
3. 广播维表
实现原理:将维表数据作为广播流,与主流进行连接。
实现方式:
// 创建广播流
BroadcastStream<DimData> broadcastStream = dimStream .broadcast(broadcastStateDescriptor); // 主流与广播流连接
DataStream<Result> result = mainStream
.connect(broadcastStream)
.process(new BroadcastProcessFunction() { // 处理逻辑 });
适用场景:
-
维表数据量适中
-
维表变更需要实时生效
-
需要保持状态一致性
9907

被折叠的 条评论
为什么被折叠?



