Byzer-lang 解析嵌套 JSON 的正确打开方式

最新推荐文章于 2024-06-15 00:45:32 发布

Byzer_Community

最新推荐文章于 2024-06-15 00:45:32 发布

阅读量268

点赞数 1

分类专栏： Byzer-lang 干货教学文章标签：开发语言大数据 kylin python

本文链接：https://blog.csdn.net/Byzer_Community/article/details/123785715

版权

引言：

在日常的业务数据分析场景中，解析复杂的 JSON 文件并提取出有用的信息进行分析是非常高频的需求。但是解析复杂的 JSON 数据并不是一件易事，需要在理解数据结构的基础上，再配合一些 JSON 处理包，像剥洋葱一样一层一层地往里剥，费时又费力。

而在本文中，我们将结合具体的示例为大家介绍：如何利用 Byzer-lang 的内置 ET 插件简单快速地进行 JSON 数据的处理和分析，以及在遇到复杂处理逻辑时的最佳实践是什么。

那就接着往下看吧～

Byzer-lang 解析嵌套 JSON 的正确打开方式

基本使用

当我们从数据源中按照不同的业务需求获取数据时，数据会以不同层级嵌套的 JSON 结构的形式呈现。

在 Byzer-lang 中，直接使用内置的 JsonExpandExt ET，就能方便地处理结果集，将一个 JSON 字段展开为多个字段方便后续的分析处理。

JSON 结构大体上可以分为两种类型：JSON Object 和 JSON Array 。

第一种类型：JSON Object

JSON Object 形如 '{ "data": [1,2,3,4] }'

以如下数据为例：

-- 首先我们创建了一个 mock_data 表，并将 stu 设置为一个层级嵌套的 JSON 结构列

select '''

{ "id": "1", "name": "student_1", "detail": { "age": "8" } }

''' as stu

as mock_data;

--然后我们使用 JsonExpandExt 去推断数据结构

run mock_data as JsonExpandExt.`` where inputCol="stu" and structColumn="true" as mock_data_1;

JsonExpandExt：为Byzer-lang 内置的 Json 处理插件
``：Byzer-lang 使用 ET 时的语法规则，为空即可
inputCol="stu"：表示 JSON 字段叫 stu
structColumn="true"：表示解析 inputCol 字段的数据类型

提示：在 Byzer-lang 里，如果想看到对应的 ET 插件包含哪些参数，可以用宏命令查看，例如：!show "et/params/JsonExpandExt"; 可以查看 JsonExpandExt 的相关参数。

该 Column 的结构和层级可以通过 JsonExpandExt 的推断获取到：

此时，再想要解析这条数据就十分简单了，可以直接通过层级获取相应字段：

select

stu.id as id,

stu.name as name,

stu.detail.age as age

from mock_data_1 as output;

我们可以看到，此时我们想要的列已经从复杂的 JSON 格式中被提取并展开成一张二维表：

第二种类型：JSON Array

JSON Array 形如 '[1,2,3,4]

select '''

[1,2,3,4]

''' as json_arr

as output;

这种格式其实不怎么方便处理，但是我们可以借助一点技巧，先将 json array 转化成 json object

最低0.47元/天解锁文章

Byzer_Community

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录