hive
文章平均质量分 86
ActionReaction
善战者,求之于势,不责于人故能择人而任势。
展开
-
hive中UDF、UDAF和UDTF使用
Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。一、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括:a)文件格式:Text File,Sequence Fileb)内存中的数据格式: Java Integer/St原创 2014-03-04 12:49:32 · 1038 阅读 · 0 评论 -
Hive中小表与大表关联(join)的性能分析
经常看到一些Hive优化的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提到的原因都是说因为小表可以先放到内存中,然后大表的每条记录再去内存中检测,最终完成关联查询。这样的原因看似合理,但是仔细推敲,又站不住脚跟。多小的表算小表?如果所谓的小表在内存中放不下怎么办?我用2个只有几条记录的表做关联查询,这应该算是小表了,在查看reduce的执行日志时依然是有写磁转载 2014-03-05 14:56:52 · 1159 阅读 · 0 评论 -
hiveQL
CREATE TABLE apache_log( host STRING, identity STRING, user STRING, time STRING, request STRING, status STRING, size STRING, referer STRING, agent STRING) ROW FOR转载 2014-03-19 17:01:30 · 619 阅读 · 0 评论 -
如何获取hive建表语句(转载)
说明:本文转载自http://www.imphrack.com/?p=21 DWer 谢谢原创作者分享!该脚本是基于hive0.4.2版本,现在最新的0.8.1版本 hive元数据库已经有过些许改变。需要要将脚本中表名COLUMNS修改为COLUMNS_V2,字段SD_ID修改成CD_ID 。 要想还原建表DDL就必须从元数据入手,我们知道,hive的元数据并转载 2014-03-19 17:24:58 · 1368 阅读 · 0 评论