一、需求
使用 Hive 统计出过去 7 天的访问日志中访问次数最多的前 3 个 url 的请求路径。
二、知识点
使用 Hive 的内置函数 parse_url
解析出 url 字段中的请求路径,官网(Hive内置函数)示例如下:
基本用法如下:
-- 例:获取 url 中的主机名
select parse_url('http://facebook.com/path1/p.php?k1=v1&k2=v2#Ref1', 'HOST');
第一个参数是 url 字符串,第二