hive
chenpe32cp
大道至简
展开
-
hive的时间日期处理函数
原文请点击这里转载上述链接的文章,以备忘(此处dual的意思是首先创建一个虚表)1.日期函数UNIX时间戳转日期函数: from_unixtime语法:from_unixtime(bigint unixtime[, stringformat]) 返回值: string说明: 转化UNIX时间戳(从1970-01-0100:00:00 UTC到指定时间的秒数)到当前时区的时间格式举例:...转载 2018-08-02 17:31:02 · 31571 阅读 · 0 评论 -
hive group by distinct区别以及性能比较
Hive去重统计相信使用Hive的人平时会经常用到去重统计之类的吧,但是好像平时很少关注这个去重的性能问题,但是当一个表的数据量非常大的时候,会发现一个简单的count(distinct order_no)这种语句跑的特别慢,和直接运行count(order_no)的时间差了很多,于是研究了一下。先说结论:能使用group by代替distinc就不要使用distinct,例子:实际论证...转载 2018-08-15 11:44:01 · 870 阅读 · 0 评论 -
hive 中如何使用split字符串分割函数
转载自这里hive字符串分割函数split(str, regex) - Splits str around occurances that match regexTime taken: 0.769 seconds, Fetched: 1 row(s)返回值为一个数组a.基本用法:例1:split('a,b,c,d',',')得到的结果:["a","b","c","...转载 2018-09-03 11:11:49 · 6634 阅读 · 0 评论 -
hive中的行转列和列转行
转载于此一、行转列的使用1、问题hive如何将a b 1a b 2a b 3c d 4c d 5c d 6变为:a b 1,2,3c d 4,5,6 2、数据t...转载 2018-11-08 21:29:50 · 317 阅读 · 0 评论 -
python如何实现基于user_id分组将item多行转为一行(类似于hive中的concat_ws功能)
举例:pandas中,将如下形式的data1转换为 data2?data1:user item A a A b A c B a B d data2:user item A [a,b,c] B [a,d] hive中可直接使用concat_ws函数,python中暂时没有找到可以直接用的函数,...原创 2018-12-20 21:32:50 · 912 阅读 · 0 评论 -
SQL(hive也适用)中条件放在on后与where后的区别
在写hive经常遇到把条件写在on或者where中的情况,看到一个总结的比较详细的博客,同样适用于hive,转载过来以备忘,感谢楼主,原文地址请点击这里 数据库在通过连接两张或多张表来返回记录时,都会生成一张中间的临时表,然后再将这张临时表返回给用户。 在使用left jion时,on和where条件的区别如下:1、 on条件是在生成临时表时使用的条件,它不管on中...转载 2018-12-17 11:45:42 · 7185 阅读 · 1 评论 -
hive 关于用户留存率的计算
最近接到一个需求,需要统计用户留存率,而且要一次统计多个模块,多个日期的留存率,那如何通过一段hive(SQL)来实现该需求呢,在网上看到一篇很精妙的文章,参考这篇文章实现了需求,可以说是目前见过的一次性统计多个时间区间留存率的最佳实践了,感谢楼主的经验分享,好东西,多记录,多分享! 查看原文,请点击这里首先用户留存率一般是面向新增用户的概念,是指某一天注册后的...转载 2018-12-18 16:26:07 · 9213 阅读 · 10 评论