![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
文章平均质量分 80
rcvgt
1111111111111111111111111
展开
-
hive 表结构操作
简单的创建表create table table_name ( id int, dtDontQuery string, name string)创建有分区的表create table table_name ( id int, dtDontQuery ...原创 2013-06-27 13:13:26 · 104 阅读 · 0 评论 -
hive中的LEFT SEMI JOIN
LEFT SEMI JOIN 是 IN/EXISTS 子查询的一种更高效的实现。hive 中没有in/exist 这样的子句,所以需要将这种类型的子句转成left semi join. left semi join 是只传递表的join key给map 阶段 , 如果key 足够小还是执行map join, 如果不是则还是common join可以用 LEFT SEMI JOIN 重写...原创 2013-12-27 17:11:08 · 169 阅读 · 0 评论 -
Hive优化总结(转)
优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小...原创 2013-12-27 18:06:16 · 109 阅读 · 0 评论 -
Hive优化2
Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,所以需要去掉原有关系型数据库下开发的一些固有思维。 基本原则:1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段select ... from Ajoin...原创 2013-12-27 18:08:08 · 73 阅读 · 0 评论 -
Hive - hive.groupby.skewindata环境变量与负载均衡
HiveQL 去重操作和SQL一样,HiveQL中同样支持DISTINCT操作,如下示例:(1) SELECT count(DISTINCT uid) FROM log(2) SELECT ip, count(DISTINCT uid) FROM log GROUP BY ip(3) SELECT ip, count(DISTINCT uid, uname) FROM log G...原创 2013-12-27 18:09:11 · 168 阅读 · 0 评论 -
Hive 数据倾斜总结
转载:http://www.tbdata.org/archives/2109几个比较特殊的点都提到了,大家可以作为参考。 在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这...原创 2013-12-27 18:10:46 · 92 阅读 · 0 评论 -
hive UDF UDAF UDTF
Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。一、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括:a)文件格式:Text File,Sequence Fileb)内存中的数据格式: Java Integer/...原创 2014-01-02 18:37:51 · 76 阅读 · 0 评论 -
hive 配置参数说明
hive.exec.mode.local.auto 决定 Hive 是否应该自动地根据输入文件大小,在本地运行(在GateWay运行) true hive.exec.mode.local.auto.inputbytes.max 如果 hive.exec.mode.local.auto 为 true,当输入文件大小小于此阈值时可以自动在本地模式运行,默认是 128兆。 13...原创 2014-01-03 17:28:01 · 95 阅读 · 0 评论