一、引言
关于Pulsar Schema,咱们要想想以下几个问题
- Pulsar 中的 Schema 是什么?
- Pulsar Schema Registry的作用是什么?
- 怎么使用?
- 原理是什么?
二、Schema 是什么
Schema是定义结构化数据和二进制字节数组之间转换的逻辑,Pulsar的消息是以非结构化的二进制数组进行存储的,Schema只有在读写时才会被应用于数据上,因此生产者和消费者需要对Schema达成一致。Pulsar通过Schema Registry作为一个中央仓库存储Schema信息,它可以协调生产者和消费者保证相同的Schema,它可以存储多个版本的Schema,支持不同的兼容性配置以及根据兼容性的要求进行Schema的演进。
Pulsar将Schema存储在Bookie上,Schema的写入、读取都通过Broker和Bookie交互,这个逻辑跟消息的读写操作是一只的,因此不需要额外考虑Schema的可用性和可靠性问题,因此整体看Pulsar实现Schema Registry的方式非常优雅
类型安全在所有数据应用中都非常重要,生产者和消费者需要某种机制协调数据类型来避免各种潜在的问题,比如序列化和反序列化方式不一致。数据安全通常有两种处理方式client-side和service-side,本质上就是客户端用时决定和服务端提前保证
client-side:将一切交给用户,客户端自行负责消息的序列化和反序列化并且保证生产消费时消息的类型安全,这种方式的最大问题就是类型是通过约定的,一旦生产者写入非约定的数据,下游的消费者将没有办法解析数据
server-side:数据安全由服务端保证,生产者和消费者都需要跟服务端提前确定数据类型。这种方式真正意义上保证了数据的类型安全,避免了生产者写入非法数据的问题
两种差异如下图
三、怎么使用
1. client-side
生产者代码逻辑
//schema在第一次写入的时候就已经决定好了,后续用其他的schema消息类型会写入失败
public static void customSchemaProducer() {
try {
String serverUrl = "http://localhost:8080";
PulsarClient pulsarClient =
PulsarClient.builder().serviceUrl(serverUrl).build();
Producer<byte[]> producer = pulsarClient.newProducer()
.topic("persistent://sherlock-api-tenant-1/sherlock-namespace-1/topic_8")
.create();
User user = new User();
user.setName("老六");
user.setAge(21);
user.setAddress("海南");
//由用户自行做序列化逻辑
producer.send(JSON.toJSONString(user).getBytes());
producer.close();
pulsarClient.close();
} catch (Exception e) {
}
}
消费者逻辑代码
public static void customSchemaConsumer() {
try {
String serverUrl = "http://localhost:8080";
PulsarClient pulsarClient =
PulsarClient.builder().serviceUrl(serverUrl).build();
Consumer<byte[]> consumer = pulsarClient.newConsumer()
.topic("persistent://sherlock-api-tenant-1/sherlock-namespace-1/topic_8")
.subscriptionName("sub_03")
.subscribe();
while(true) {
Message<byte[]> message = consumer.receive();
//由用户自行做序列化逻辑
byte[] user = message.getValue();
System.out.println("消息数据为:"+JSON.parseObject(user, User.class).toString());
consumer.acknowledge(message);
//consumer.negativeAcknowledge(message);
}
} catch (Exception e) {
}
}
执行效果如下
消息数据为:User{name='老六', age=21, address='海南'}
2. server-side
生产者代码逻辑
//schema在第一次写入的时候就已经决定好了,后续用其他的schema消息类型会写入失败
public static void customSchemaProducer() {
try {
String serverUrl = "http://localhost:8080";
PulsarClient pulsarClient =
PulsarClient.builder().serviceUrl(serverUrl).build();
//由Pulsar做序列化逻辑
Producer<User> producer = pulsarClient.newProducer(AvroSchema.of(User.class))
.topic("persistent://sherlock-api-tenant-1/sherlock-namespace-1/topic_7")
.create();
User user = new User();
user.setName("王武");
user.setAge(36);
user.setAddress("海南");
producer.send(user);
producer.close();
pulsarClient.close();
} catch (Exception e) {
}
}
消费者逻辑代码
public static void customSchemaConsumer() {
try {
String serverUrl = "http://localhost:8080";
PulsarClient pulsarClient =
PulsarClient.builder().serviceUrl(serverUrl).build();
//由Pulsar做序列化逻辑
Consumer<User> consumer = pulsarClient.newConsumer(AvroSchema.of(User.class))
.topic("persistent://sherlock-api-tenant-1/sherlock-namespace-1/topic_7")
.subscriptionName("sub_03")
.subscribe();
while(true) {
Message<User> message = consumer.receive();
User user = message.getValue();
System.out.println("消息数据为:"+user);
consumer.acknowledge(message);
//consumer.negativeAcknowledge(message);
}
} catch (Exception e) {
}
}
执行效果如下
消息数据为:User{name='王武', age=36, address='海南'}
3. 小结
分别查看两个Topic的Schema信息如下图
通过查询client-side的Schema信息,会发现Pulsar服务端其实并没有进行存储,相当于不指定Schema的话Pulsar默认都用byte数组
再来看看server-side的Schema信息,可以看到打印如下,namespace是pojo类的包路径,name是pojo类名,然后fields就是pojo类的各个字段的属性(像不像mysql里面的表结构,不少场景Topic就是当作表来用的),然后type是AVRO是由于咱们是用的avro进行序列化的。
除了在读写数据时指定Schema,Pulsar还支持通过admin管理流提前指定好,具体指令在这里。如果是用Pulsar来作为实时数仓场景,强烈建议提前通过admin管理流进行指定好,配置isSchemaValidationEnforced可以考虑开启。如果条件允许可以考虑做成服务化,例如通过Web页面提供新建Schema、修改Schema操作并接入公司内部的审批流等
pulsar-admin schemas upload --filename
POST /admin/v2/schemas/:tenant/:namespace/:topic/schema
pulsar-admin schemas get sherlock-api-tenant-1/sherlock-namespace-1/partition_partition_topic_3
四、原理解析
Schema相关的流程咱们需要关注以下几个
- 注册Schema流程
- 生产者端侧
- 消费者端侧
- 指定服务器
- Schema生效流程
- 更新Schema流程
1. 注册Schema流程
生产者端侧
- 生产者实例会在内部构造schema实例,生产者会通过它对数据进行转换
- 生产者会请求连接Broker,并传递schema信息 SchemaInfo
- Broker会在schema registry中查找这个schema是否被注册,如果已经注册了就将注册的schema版本返回给生产者
- Broker检查是否支持自动更新schema,如果配置不允许自动更新,则这个schema不能被注册并且拒绝生产者
- Broker进行schema兼容性检查,如果通过检查则将此schema存储在schema registry并返回版本给生产者,生产者所有消息以这个schema格式进行发送;若是检查没通过则拒绝生产者
消费者端
- 消费者实例会在内部构造schema实例
- 消费者请求连接Broker,并传递schema信息 SchemaInfo
- Broker检查这个Topic是否已经在使用,有的话跳到第五步,否则跳到第四步
- Broker检查是否支持自动更新schema,如果支持则注册这个schema,否则拒绝客户端
- Broker进行schema兼容性检查,通过则连接否则拒绝客户端