flink入门之使用JSONKeyValueDeserializationSchema反序列kafka消息

背景需求
在日常生产中,我们大多数时候都会用到flink的kafka connector,在使用过程中,大多数的程序员都会使用new SimpleStringSchema()来反序列化Kafka中的数据,然后使用alibaba提供的fastJson来解析数据
例如:

  val jsonObject = JSON.parseObject(jsonStr)
  val eventId = JSON.parseObject(jsonObject.getString("eventDetail")).getString("eventId")
  val uuid_geek = JSON.parseObject(jsonObject.getString("eventDetail")).getString("uuid")
  val poiIdArray = JSON.parseObject(jsonObject.getString("eventDetail")).getJSONArray("poiId")

虽然这样可以实现业务的需求,但一方面比较麻烦,另一方面是对于多字段的json数据,会把许多不必要的字段一起带出来,造成的效率减低。

解决方法
flink自带了一种反序列化的机制——JSONKeyValueDeserializationSchema。
这种方式不但可以解析json结构,避免出现空指针异常,而且可以把消费者信息带上来,非常方便。

代码

import java.util.Properties
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer011
import org.apache.flink.api.scala._
import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment
import org.apache.flink.streaming.util.serialization.JSONKeyValueDeserializationSchema

object Test{

  def main(args: Array[String]): Unit = {

    val env = StreamExecutionEnvironment.getExecutionEnvironment
	//kafka参数
    val properties: Properties = new Properties()
    properties.setProperty("bootstrap.servers", "flink:9092")
    properties.setProperty("group.id", "flink_test")
    properties.setProperty("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer")
    properties.setProperty("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer")
    properties.setProperty("auto.offset.reset", "latest")
    //如果想读多个主题,必须放在java的list中
    import scala.collection.JavaConverters._
    val topics = List[String]("flinkTest").asJava
    //这里JSONKeyValueDeserializationSchema参数true,代表返回消费者信息
    val jsonDstream = env.addSource(new FlinkKafkaConsumer011(topics,new JSONKeyValueDeserializationSchema(true),properties))
    val result = jsonDstream.map(obj => {
      val name = obj.get("value").get("friend").get("name")
      val age = obj.get("value").get("age")
      val offset = obj.get("metadata").get("offset")
      val topic = obj.get("metadata").get("topic")
      val partition = obj.get("metadata").get("partition")
      (name,age,s"消费的主题是:$topic,分区是:$partition,当前偏移量是:$offset")
    })
    result.print()
    env.execute()

  }

我们输入一条json:

{“name”:“jack”,“age”:“18”,“city”:“北京市”,“friend”:{“name”:“xiaoming”,“age”:“15”}}

看到输出结果为:

(“xiaoming”,“18”,消费的主题是:“flinkTest”,分区是:0,当前偏移量是:51)

我们再输入一条不完整的数据:

{“name”:“jack”,“city”:“北京市”,“friend”:{“name”:“xiaoming”,“age”:“15”}}

看到输出结果为:

(“xiaoming”,null,消费的主题是:“flinkTest”,分区是:0,当前偏移量是:52)

总结

我们可以看到,用了JSONKeyValueDeserializationSchema反序列方法,我们就不用手动去解析json结构了,对于没有的字段,就是直接返回null,非常方便。
这里返回的值为JsonNode类型,我们可以手动转换成各种想要的类型,但是要注意,如果你取的字段有空值,会造成空指针异常,要放到try/catch中。

  • 5
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要将FlinkKafka消费的数据序列化并存入Hive,可以按照以下步骤进行操作: 1. 配置Kafka消费者和Hive连接 首先需要配置FlinkKafka消费者和Hive连接,可以使用Flink提供的Kafka连接器和Hive连接器来实现。具体的配置可以参考Flink官方文档进行设置。 2. 设计序列化类 根据你从Kafka消费的数据格式,需要设计一个序列化类来将数据转换为Flink中的对象。例如,如果你从Kafka消费的是JSON格式的数据,可以使用Flink提供的JSON序列化类进行转换。 3. 定义Hive表结构 在Hive中创建一个表来存储序列化后的数据。你需要定义表的结构,包括列名、列类型和分区等信息。 4. 编写Flink程序 编写一个Flink程序来消费Kafka中的数据,并将数据序列化后存入Hive表中。具体的实现可以参考以下代码示例: ```java DataStream<String> dataStream = env.addSource(new FlinkKafkaConsumer<String>( "topic", new SimpleStringSchema(), properties)); DataStream<MyObject> myObjects = dataStream.map(new MapFunction<String, MyObject>() { @Override public MyObject map(String value) throws Exception { ObjectMapper mapper = new ObjectMapper(); return mapper.readValue(value, MyObject.class); } }); HiveCatalog hiveCatalog = new HiveCatalog("myHiveCatalog", "default", "/path/to/hive/conf"); TableSchema schema = new TableSchema( new String[] {"id", "name", "age"}, new TypeInformation<?>[] {Types.STRING, Types.STRING, Types.INT}); HiveTableSink hiveTableSink = new HiveTableSink( "myDatabase.myTable", schema, hiveCatalog, new Configuration(), "myPartition"); myObjects.addSink(hiveTableSink); ``` 其中,`MyObject`是你从Kafka消费的数据序列化后的对象,`hiveCatalog`是Hive连接器的配置信息,`schema`是Hive表的列信息,`hiveTableSink`是Hive表的输出目的地。 5. 运行Flink程序 配置好Flink程序后,就可以运行程序了。程序会从Kafka消费数据,将数据序列化后存入Hive表中。 以上就是将FlinkKafka消费数据序列化存入Hive的步骤和示例代码。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值