hive
pany8125
这个作者很懒,什么都没留下…
展开
-
User-Defined Functions (UDFs) with HiveServer2 Using Cloudera Manager
Creating Permanent FunctionsCopy the JAR file to HDFS and make sure the hive user can access this JAR file.Copy the JAR file to the host on which HiveServer2 is running. Save the JARs to any dir转载 2015-07-02 16:07:48 · 643 阅读 · 0 评论 -
Moving Data from HDFS to Hive Using an External Table
原文链接:http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.3.0/bk_dataintegration/content/moving_data_from_hdfs_to_hive_external_table_method.html博主按:虽然文章例子说的是csv,但其他的数据源也都可以用这种方式转成ORC的External Tabl转载 2015-10-16 22:21:38 · 929 阅读 · 0 评论 -
hadoop 数据倾斜
数据倾斜是指,map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完。 阿里的这篇比较实用,通俗易懂:数据倾斜总结 http://w转载 2015-10-12 16:57:49 · 4671 阅读 · 0 评论 -
oozie下使用hive UDF的惨痛教训
问题现象:oozie中跑的一个workflow,hql脚本的导出结果和预期不一致,出错。漫长的DUBUG之路:1.首先想到的是通过在Hue中来跑同一个hql脚本,查找问题。通过在oozie的log中找到解析完的hql,跑了下,结果发现和预期一致,头有点儿大。。。2.经过分析hql,推测可能是和脚本中用到自己之前写的一个UDF有关。于是单独用这个UDF写了一个和问题中涉及业务相同的简原创 2015-10-16 00:26:30 · 1698 阅读 · 0 评论 -
Hive Tips
原文链接:http://blog.hesey.net/2012/04/hive-tips.html在Hive中,某些小技巧可以让我们的Job执行得更快,有时一点小小的改动就可以让性能得到大幅提升,这一点其实跟SQL差不多。首先,Hive != SQL,虽然二者的语法很像,但是Hive最终会被转化成MapReduce的代码去执行,所以数据库的优化原则基本上都不适用于 Hi转载 2015-10-10 20:16:56 · 305 阅读 · 0 评论 -
hive array、map、struct使用
原文地址:http://blog.csdn.net/yfkiss/article/details/7842014hive提供了复合数据类型:Structs: structs内部的数据可以通过DOT(.)来存取,例如,表中一列c的类型为STRUCT{a INT; b INT},我们可以通过c.a来访问域aMaps(K-V对):访问指定域可以通过["指定域名称"]进行,例如,一个M转载 2015-10-30 11:40:26 · 391 阅读 · 0 评论