Hive——Hive/Spark SQL解析JSON对象、JSON数组

最新推荐文章于 2023-03-19 00:57:04 发布

Southwest-

最新推荐文章于 2023-03-19 00:57:04 发布

阅读量2.3k

点赞数 1

分类专栏： Hive 文章标签： hive

本文链接：https://blog.csdn.net/lovetechlovelife/article/details/107349381

版权

Hive 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

文章目录

1. JSON对象解析
- 1. 使用get_json_object()函数
- 2. 使用json_tuple()函数
2. JSON数组解析
- 1. Hive实现
- 2. Spark SQL实现

1. JSON对象解析

JSON对象的处理可以用get_json_object()函数或json_tuple()函数。

字段field的值是一个JSONObject：{“status”:0,“version”:“v1.0”}

1. 使用get_json_object()函数

```sql
select 
    get_json_object(field, "$.status"),
    get_json_object(field, "$.version")
from db.table;
```

2. 使用json_tuple()函数

如果需要获取多个key的值，建议用json_tuple函数，性能优于get_json_object()。
sql select json.status, json.version from qjdods.cif_credit_report t lateral view json_tuple(report_value, 'status', 'version') json as status, version limit 1;

2. JSON数组解析

1. Hive实现

Hive中的处理思路：

把JSON对象之间的逗号(，)替换成特殊字符，比如^*，因为之后要以这个特殊字符串来切分
替换掉中括号([])，为空
以步骤1中的特殊字符串切分处理后的JSON数组
结合 lateral view explode()函数，使得JSON数组转成多行JSON对象

select 
    id, json
from db.table
lateral view explode(
    split(
        regexp_replace(regexp_replace(json_array, "},", "}^*^*"), "\\[|\\]", ""), "\\^\\*\\^\\*"
    )
) t as json

2. Spark SQL实现

使用Hive SQL处理JSON数组有一个弊端，如果JSON数组里面有嵌套数组的时候，单纯的替换掉中括号得出的结果就是错误的。而Spark SQL提供了一个内建函数substring_index(str: Column, delim: String, count: Int)，这个函数可以从指定的索引位置，指定分隔符来切分JSON字符串，这样就可以实现只替换JSON数组中的首尾中括号。当然，在Hive SQL也可以自己写一个UDF来实现这个功能。

Spark实现代码如下：

//Json数组行转列
def explodeFunc(spark: SparkSession, df: Dataset[Row]): Dataset[Row] = {
    import spark.implicits._
    df.select($"user_id",
        explode(
            split(
                substring_index(
                    substring_index(
                        regexp_replace($"json_array", "},", "}^*^*"),
                        "[", -1),
                    "]", 1),
                "\\^\\*\\^\\*"
            )
        ).as("json")
    )
}

Southwest-

关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
Hive——Hive/Spark SQL解析JSON对象、JSON数组

文章目录窗口分析函数1. 分析函数2. 聚合函数3. 窗口函数行列转换1. 行转列2. 列转行JSON处理1. JSON对象2. JSON数组时间处理 窗口分析函数函数中用到的表数据如下图：1. 分析函数row_number()rank()dense_rank()这3个函数通常用在组内排序中，但实现的效果却不相同，用法如下：select name,subject,score, row_number() over(partition by name orde
复制链接

扫一扫