1.unix时间转换
在hive中将UTC转为正常时间的方法
参考:http://ju.outofmemory.cn/entry/125067
看第二行,使用from_unixtime将UTC转为string时间,这里虽然这样说了,但是在处理的时候还是有要注意的地方的(注意下面的/1000)
SELECT from_unixtime(cast(1426041039030/1000 as bigint));
返回值为
-03-11 10:30:39
两个方法:
from_unixtime(unixtime/1000, 'yyyyMMdd') //第二个参数是可选的,其格式也可以自己指定
注意:unixtime一定要除以1000,得到的结果才是正确的。
2. 判断空值
if channel=''
3.查询Hive中map中包含的key值:
参考:http://jimi68.iteye.com/blog/980573
select distinct paramaters['label'] from beacon where ...;
4. join时造成 表扩行。导致查询出的结果中,相同记录会重复出现多行。
例:user表中每个用户只有一条记录,但是order表中,一个用户有多条记录。如果两张表进行join,会将order表中的内容进行扩行。
解决办法:结合需求 进行调整。一般可以先将其中一张表进行group 不要操作。例如此处可以在order表中 先按user_id进行group by,然后再两表join,就不会出现扩行了。
5.踩过了好多坑。为此而耗费好多时间。
1)字段英文,看含义啊,不要一个劲儿的找中文。。
2)有聚合函数时,千万别丢了group by。今天因为少了它,上千行的记录 办成了一条,怎么都查不到原因。(2017-01-10)
6.mySQL性能。substr(字符串)有时效率不高。
substr(updated_at,1,10)>'2017-01-10' 不如 updated_at>'2017-01-10'效率高。
7.shell中,'$date2' 千万别少了单引号,否则数据会变得很奇怪。