hive
royesir
waiting for U
展开
-
hive性能优化
<br />在hive中最长用到的就是对表之间的操作,在做join操作时,将小表放在左边,大表放在右边可提升集群的性能。原理很简单,hive对于join操作是:在做完map之后将左边的表的数据拷贝到右边的表所在的reducer上与右边的表进行join操作,这样reducer主要保存小表的数据,当右边的表来一条记录就可以和左边的表的数据(已拷贝到reducer保存)作join,然后直接将结果写入HDFS,而不用保存在reducer。同时,由于小表的数据比较,作join时在时间上性能也会有提升原创 2010-07-19 20:52:00 · 2673 阅读 · 0 评论 -
Hive的预定义UDF函数
<br /> <br />Hive的预定义UDF函数列表如下,主要来自于describe function xxx和代码注释的翻译:)abs(x) - returns the absolute value of x acos(x) - returns the arc cosine of x if -1<=x<=1 or NULL otherwise ascii(str) - returns the numeric value of the first character of str asin(x)转载 2010-08-05 09:34:00 · 11034 阅读 · 0 评论