最近有个需求,需要解析数仓中某张表的某个字段,该字段为Json,且为嵌套的多层Json,Json数据格式化之后如下:
由于是生产环境上的数据,因此对于某些value以xxx进行替代,并不影响sql的编写
样例:
需求是需要提取出每个这种json中所有的brandName
思路1:
使用hive自带的get_json_object函数进行处理:
尝试之后,发现最终的效果只能是取出其中一个brandname,并不能取出全部
思路2:
既然使用自带的json处理函数不能满足,那么就自己去开发一个udf函数,思路比较简单,只要将读入的每个json进行解析,一个for循环,将里面的brandName依次拿出来就行
思路3:
其实Hive SQL也可以一行sql直接搞定,没必要写什么udf,思路如下:
- 将json 以brand_name进行切分成多行 使用lateral view和explode进行配合处理
- 对每一行数据进行处理 提取出品牌名
- 剔除为数字的情况
SQL如下: