Hive&SQL笔记

最新推荐文章于 2017-02-09 22:33:47 发布

要努力啊要努力

最新推荐文章于 2017-02-09 22:33:47 发布

阅读量292

点赞数

分类专栏： Hive & MySQL & SQL

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lotusws/article/details/53502865

版权

Hive & MySQL & SQL 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

1.unix时间转换

在hive中将UTC转为正常时间的方法

参考：http://ju.outofmemory.cn/entry/125067

看第二行，使用from_unixtime将UTC转为string时间，这里虽然这样说了，但是在处理的时候还是有要注意的地方的（注意下面的/1000）

SELECT from_unixtime(cast(1426041039030/1000 as bigint));

返回值为

-03-11 10:30:39

两个方法：

from_unixtime(unixtime/1000, 'yyyyMMdd') //第二个参数是可选的，其格式也可以自己指定

注意：unixtime一定要除以1000，得到的结果才是正确的。

2. 判断空值

if channel=''

3.查询Hive中map中包含的key值：

参考：http://jimi68.iteye.com/blog/980573

select distinct paramaters['label'] from beacon where ...;

4. join时造成表扩行。导致查询出的结果中，相同记录会重复出现多行。

例：user表中每个用户只有一条记录，但是order表中，一个用户有多条记录。如果两张表进行join，会将order表中的内容进行扩行。

解决办法：结合需求进行调整。一般可以先将其中一张表进行group 不要操作。例如此处可以在order表中先按user_id进行group by，然后再两表join，就不会出现扩行了。

5.踩过了好多坑。为此而耗费好多时间。

1）字段英文，看含义啊，不要一个劲儿的找中文。。

2）有聚合函数时，千万别丢了group by。今天因为少了它，上千行的记录办成了一条，怎么都查不到原因。（2017-01-10）

6.mySQL性能。substr(字符串)有时效率不高。

substr(updated_at,1,10)>'2017-01-10' 不如 updated_at>'2017-01-10'效率高。

7.shell中，'$date2' 千万别少了单引号，否则数据会变得很奇怪。

要努力啊要努力

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hive&SQL笔记

1.unix时间转换在hive中将UTC转为正常时间的方法参考：http://ju.outofmemory.cn/entry/125067 看第二行，使用from_unixtime将UTC转为string时间，这里虽然这样说了，但是在处理的时候还是有要注意的地方的（注意下面的/1000）SELECT from_unixtime(cast(1426041039030...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。