hive
任何忧伤都抵不过世界的美丽
这个作者很懒,什么都没留下…
展开
-
hive 学习系列四(UDF)
如果入参是简单的数据类型,直接继承UDF,实现一个或者多个evaluate 方法。具体流程如下:1,实现大写字符转换成小写字符的UDFpackage com.example.hive.udf;import org.apache.hadoop.hive.ql...转载 2019-05-31 11:17:56 · 423 阅读 · 0 评论 -
Hive分析窗口函数(四) LAG、LEAD、FIRST_VALUE和LAST_VALUE
数据cookie4.txtcookie1,2015-04-10 10:00:02,url2cookie1,2015-04-10 10:00:00,url1cookie1,2015-04-10 10:03:04,1url3cookie1,2015-04-10 10:50:05,url6cookie1,2015-04-10 11:00:00,url7cookie1,2015-04-10 ...原创 2019-06-04 21:13:04 · 651 阅读 · 0 评论 -
hive 数据分析函数之三ROW_NUMBER,RANK,DENSE_RANK
ROW_NUMBER() 的应用场景非常多 :不并列不留空位RANK() 生成数据项在分组中的排名,排名相等会在名次中留下空位DENSE_RANK() 生成数据项在分组中的排名,排名相等会在名次中不会留下空位select cookieid,cookietime,pv,rank() OVER(partition by cookieid order by pv ) as pv1,dense_...原创 2019-06-04 20:34:52 · 172 阅读 · 0 评论 -
hive 数据分析窗口函数之五 GROUPING SETS GROUPING__ID CUBE ROLLUP
概述:GROUPING SETS,GROUPING__ID,CUBE,ROLLUP这几个分析函数通常用于OLAP中,不能累加,而且需要根据不同维度上钻和下钻的指标统计,比如,分小时、天、月的UV数。cookie5.txt2015-03,2015-03-10,cookie12015-03,2015-03-10,cookie52015-03,2015-03-12,cookie72015-...原创 2019-06-04 19:33:33 · 219 阅读 · 0 评论 -
hive面试系列
导入数据mianshi.txtA,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2015-02,6B,2015-02,10B,2015-02,5A,2015-03,16A,2015-03,22B,2015-03,23B,2015-03,10B,2015-...原创 2019-06-10 22:10:58 · 80 阅读 · 0 评论 -
hive order by group by
1.order by 全局排序,只有一个reduce,所以一般不用,使用场景可以理解为:一个输出文件2.窗口函数中的 order by 并不是只有一个 reduce3.group by 相同的key进入为一组, 不同的key可以进入一个reduce ,但是相同的key一定在一个reduce ,...原创 2019-06-04 07:19:47 · 849 阅读 · 0 评论 -
hive union all
功能:将两个表中的 相同的字段拼接到一起特点:union all不去重,数据会重复 ,hive不支持unionunion all必须满足如下要求字段名字一样字段类型一样字段个数一样子表不能有别名如果需要从合并之后的表中查询数据,那么合并的表必须要有别名select * from (select * from munion allselect * from n)temp;...原创 2019-06-03 22:36:10 · 4243 阅读 · 0 评论 -
Hive-mapjoin
hive的高级查询设置mapjoin二种方式第一种:set hive.auto.convert.join=true;第二种查询时: select /*+mapjoin(n)*/ age from table1 join on xx=xx;建表:create table test1(cookieid string,cookietime string,pv int);测试数据:...原创 2019-06-03 21:20:45 · 254 阅读 · 0 评论 -
Hive开窗函数总结
[转载](https://blog.csdn.net/Abysscarry/article/details/81408265)背景: 平常我们使用 hive或者 mysql时,一般聚合函数用的比较多。但对于某些偏分析的需求,group by可能很费力,子查询很多...转载 2019-06-01 11:32:35 · 281 阅读 · 0 评论 -
hive 学习系列 hive 常用数据清洗函数
1,case when 的利用,清洗诸如评分等的内容,用例如下。case when new.comment_grade = '五星商户' then 50 when new.comment_grade = '准五星商户' then 45 when...转载 2019-05-31 11:24:03 · 458 阅读 · 0 评论