Hive的内置函数parse_url_tuple/lateral view/explode

这篇博客介绍了Hive中用于解析URL和处理JSON数据的内置函数,如parse_url_tuple()和lateral view explode()。parse_url_tuple()用于提取URL的特定部分,而lateral view则用于将数据展开成多行,配合explode()处理数组结构,常用于从非关系型数据库导入到Hive数仓的ETL过程中。
摘要由CSDN通过智能技术生成

目录

大数据技术普及后,很多类似pv,uv的数据,在业务系统中以json的方式存储存贮在非关系型数据库中,直接导入hive为基础的数仓系统中,就需要经过ETL过程解析这类数据,Hive的lateral view内置函数在这种情景下应运而生。
【1】parse_url_tuple()
语法: parse_url(string urlString, string partToExtract [, string keyToExtract]),parse_url_tuple()功能类似parse_url(),但它可以同时提取多个部分并返回。
返回值:String
说明:返回URL中指定的部分。partToExtract的有效值为:HOST, PATH, QUERY, REF, PROTOCOL, AUTHORITY, FILE, and USERINFO。

hive> select parse_url_tuple(‘http://facebook.com/path1/p.php?k1=v1&k2=v2#Ref1’,QUERY:k1’,QUERY:k2’);
>>v1 v2

【2】lateral view
  是将右边的表或者结果合并到左边表,和左边表整合成一张表。

create table t_ods_tmp_referurl as
SELECT a.*,b.* FROM ods_weblog_origin a LATERAL VIEW parse_url_tuple(regexp_replace(http_referer, “”", “”),HOST,PATH,QUERY,
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值