Flink SQL解析嵌套Json数据测试过程调研

一、背景

测试需求->流式计算->json嵌套类型数据,流式计算的流程是基于,将配置的任务,转化为flink sql,然后提交到集群上,执行计算任务的过程,所以,除基本功能测试以外,需要考虑,我们提交的json嵌套类型数据,解析后,解析成什么类型才符合flink sql的语法,才可以正常执行,所以简单进行调研总结下flink sql 解析json嵌套数据。

二、思考过程

1、流式计算的业务处理过程:将kafka输入源的数据,存储为flink虚拟表a的数据,将a的数据全部select出,insert到kafka输出源(将kafka topic 抽象成 flink table),所以基于「测试」的角度需要了解flink sql,对于不同数据类型,如:array、row等数据格式,在建表DDL中应该如何定义?SQL如何解析?不同json嵌套类型的数据经过流式计算平台json解析后的结果应该是如何的?

三、调研结果

json嵌套的样例数据

{
    "funcName":"test",
    "data":{
        "snapshots":[
            {
                "content_type":"application/x-gzip-compressed-jpeg",
                "url":"https://blog.csdn.net/"
            }
        ],
        "audio":[
            {
                "content_type":"audio/wav",
                "url":"https://blog.csdn.net/"
            }
        ]
    },
    "type":2,
    "timestamp":1610549997263,
    "arr":[
        {
            "address":"北京市海淀区",
            "city":"beijing"
        },
        {
            "address":"北京市海淀区",
            "city":"beijing"
        },
        {
            "address":"北京市海淀区",
            "city":"beijing"
        }
    ]
}

解析后的数据类型

funcName: STRING
data: ROW<snapshots ARRAY<ROW<content_type STRING,url STRING>>,audio ARRAY<ROW<content_type STRING,url STRING>>>
type:INT
timestamp:BIGIN
arr: ARRAY<ROW<address STRING,city STRING>

目前基于流式计算java开发,对json嵌套数据进行解析后的结果:

"data":{
  "data.XX.XX":{
            "parent": "data",
            "name": "data.XX.XX",
            "type": "STRING"
  }
}

定义DDL建表语句语法举例:

CREATE TABLE kafka_source (
    funcName STRING,
    data ROW<snapshots ARRAY<ROW<content_type STRING,url STRING>>,audio ARRAY<ROW<content_type STRING,url STRING>>>,
    `type` INT,
    `timestamp` BIGINT,
    arr ARRAY<ROW<address STRING,city STRING>>,
    proctime as PROCTIME()
) WITH (
    'connector' = 'kafka', -- 使用 kafka connector
    'topic' = 'test',  -- kafka topic
    'properties.bootstrap.servers' = 'master:9092,storm1:9092,storm2:9092',  -- broker连接信息
    'properties.group.id' = 'jason_flink_test', -- 消费kafka的group_id
    'scan.startup.mode' = 'latest-offset',  -- 读取数据的位置
    'format' = 'json',  -- 数据源格式为 json
    'json.fail-on-missing-field' = 'true', -- 字段丢失任务不失败
    'json.ignore-parse-errors' = 'false'  -- 解析失败跳过
)

 解析SQL语句相关举例:

select  kafka_source.'funcName' as 'funcName', count(kafka_source.'data.snapshots[1].url') as 'data.snapshots[1].url_count' 
from kafka_source

 四、实际应用于-流式计算测试过程

1、在流式计算,页面新建 json嵌套类型数据的计算任务,并正确启动

2、进入 hadoop on yarn 环境查看 该任务运行日志

点击查看详情,并点击Logs

最终可查看,将kafka topic 抽象成 flink table的sql的建表语句,以及最终提交的flink sql ->计算任务,可按照相关的语法,对执行的sql进行一个测试检查。

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 在Flink SQL中,解析JSON的函数有以下几种: 1. JSON_VALUE:用于从JSON字符串中提取指定的值。 2. JSON_OBJECT:用于创建一个JSON对象。 3. JSON_ARRAY:用于创建一个JSON数组。 4. JSON_PARSE:用于将JSON字符串解析JSON对象或JSON数组。 5. JSON_EXISTS:用于检查JSON字符串中是否存在指定的键或路径。 6. JSON_PRETTY:用于将JSON字符串格式化为易于阅读的形式。 以上是Flink SQL解析JSON的常用函数,可以根据具体需求选择使用。 ### 回答2: 在Flink SQL中,解析JSON数据的函数被称为JSON函数,它允许用户将JSON格式的数据解析Flink SQL查询所需的格式。 在Flink SQL中,用户可以使用JSON函数将一个JSON字符串转换为一个Flink SQL的ROW类型,这个ROW类型包含了JSON中所有的key和value。此外,用户还可以使用JSON函数将Flink SQL的ROW类型转换为JSON字符串。 在利用JSON函数解析JSON数据之前,需要先将JSON数据定义为Flink SQL的源表,这可以使用CREATE TABLE语句来完成。在CREATE TABLE语句中,用户需要指定JSON数据所在的路径以及JSON数据中各个字段的名称和数据类型。 接下来,用户可以利用SELECT语句来解析JSON数据。在SELECT语句中,用户可以使用JSON函数来解析JSON数据,并且可以使用标准的SQL语法来查询JSON数据中的某些字段。 以下是JSON函数的一些常用语法: 1. JSON_OBJECT(str*):返回一个JSON对象,这个对象中包含了所有给定的key-value对。 2. JSON_ARRAYAGG(expr):将expr转化成一个JSON数组。 3. JSON_OBJECTAGG(key, value):返回一个JSON对象,这个对象中包含了所有给定key-value对。 4. JSON_EXTRACT(json, path):返回一个给定JSON对象中指定path的值。 5. JSON_ARRAY(expr1, expr2, …):返回一个指定的JSON数组。 总结一下,在Flink SQL中,利用JSON函数解析JSON数据的流程如下: 1. 将JSON数据定义为Flink SQL的源表。 2. 在SELECT语句中使用JSON函数来解析JSON数据。 3. 使用标准的SQL语法查询JSON数据中的某些字段。 最后,需要注意的是,Flink SQL中的JSON函数文档已经非常详细,用户可以按需查阅。此外,Flink SQL官方文档中还提供了很多例子,用户可以参考这些例子来学习如何使用JSON函数。 ### 回答3: FlinkSQL是Apache Flink中的一种SQL分析工具,通过使用FlinkSQL可以快速地对数据进行分析和处理。在FlinkSQL中,解析JSON是一项常见的任务,这可以通过使用解析JSON的函数来实现。 在FlinkSQL中,解析JSON的函数包括:JSON_VALUE、JSON_OBJECT、JSON_ARRAY等。其中,JSON_VALUE函数用于从JSON字符串中提取特定的值,JSON_OBJECT函数用于创建一个JSON对象,而JSON_ARRAY函数用于创建JSON数组。 JSON_VALUE函数的语法是: JSON_VALUE(json, path) 其中,json参数指的是要解析JSON字符串,path参数则是JSON路径表达式。示例: SELECT JSON_VALUE('{"name":"xiaoming","age":18}','$.age') as age 这将返回18,因为它从JSON字符串中选择了“age”值。 JSON_OBJECT函数的语法是: JSON_OBJECT(key1, value1, key2, value2, …) 其中,key和value是JSON中的键值对。示例: SELECT JSON_OBJECT('name', 'xiaoming', 'age', 18) as user 这将返回一个包含'name'为'xiaoming','age'为18的JSON对象。 JSON_ARRAY函数的语法是: JSON_ARRAY(value1, value2, ...) 其中,value可以是任何JSON数据类型,例如字符串、数字、对象或数组。示例: SELECT JSON_ARRAY('xiaoming', 'xiaohong', 'xiaobai') as users 这将返回包含三个字符串值的JSON数组。 总的来说,FlinkSQL中的解析JSON函数提供了一种简单而灵活的方法来解析JSON数据。使用这些函数,可以轻松地从JSON字符串中提取所需的数据,并将其转换为其他格式进行进一步处理。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值