2014年08月_王诗龄

原创 hive 数据倾斜

链接：http://www.alidata.org/archives/2109数据倾斜总结在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。H...

2014-08-27 09:03:54 82

原创 hive 分通总结

总结分析:1. 定义了桶，但要生成桶的数据，只能是由其他表通过insert into 或是insert overwrite ，若表有分区只能使用insert overwrite 2. 定义桶可以使用整型字段或是string类型字段3. 若表没有定义桶也可以进行随机抽样4. 必须先set hive.enforce.bucketing = true才可以将数据正常写入...

2014-08-27 08:42:15 185

原创深入了解Hive Index具体实现

索引是标准的数据库技术，hive 0.7版本之后支持索引。hive索引采用的不是'one size fites all'的索引实现方式，而是提供插入式接口，并且提供一个具体的索引实现作为参考。Hive的Index接口如下：复制代码public interface HiveIndexHandler extends Configurable { /** * Determine...

2014-08-25 08:51:08 178

原创 explain hive index

设置索引：使用聚合索引优化groupby操作hive> set hive.optimize.index.groupby=false;自动使用索引hive> set hive.optimize.index.filter=true; 设置自动使用索引的最小输入字节数hive>set hive.optimize.index.fil...

2014-08-24 16:44:01 129

原创 Hadoop工作流引擎之Azkaban

Hadoop工作流引擎之AzkabanEdit介绍Azkaban是twitter出的一个任务调度系统，操作比Oozie要简单很多而且非常直观，提供的功能比较简单。Azkaban以Flow为执行单元进行定时调度，Flow就是预定义好的由一个或多个可存在依赖关系的Job组成的工作流。Azkaban的官方主页是http://azkaban.github.io/azkaban2/ ，它的的...

2014-08-21 14:18:42 149

原创 Azkaban的安装

Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系，并提供一个易于使用的web用户界面维护和跟踪你的工作流。它有如下功能特点：• Web用户界面 •方便上传工作流•方便设置任务之间的关系•调度工作流• 认证/授权(权限的工作) •能够杀死...

2014-08-20 15:43:57 145

原创 Hive 中内部表与外部表的区别与创建方法

分类： Hive 2013-12-07 11:56 1806人阅读评论(0) 收藏举报先来说下Hive中内部表与外部表的区别： Hive 创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也...

2014-08-15 17:11:01 130

原创 hive map和reduce的控制

一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2. 举例： a) 假设input目录下有...

2014-08-15 16:14:24 124

原创 hive 压缩策略

Hive使用的是Hadoop的文件系统和文件格式，比如TEXTFILE，SEQUENCEFILE等。在Hive中对中间数据或最终数据数据做压缩，是提高数据吞吐量和性能的一种手段。对数据做压缩，可以大量减少磁盘的存储空间，比如基于文本的数据文件，可以将文件压缩40%或更多，同时压缩后的文件在磁盘间传输和I/O也会大大减少；当然压缩和解压缩也会带来额外的CPU开销，但是却可以...

2014-08-15 15:16:29 149

原创 hive 在mysql中创建备用数据库

修改hive-site.xml javax.jdo.option.ConnectionURL jdbc:mysql://vmtmstorm01:3306/hive2?useUnicode=true&characterEncoding=UTF-8 javax.jdo.option.ConnectionDriverName com.m...

2014-08-15 09:21:52 258

原创 HIVE 窗口及分析函数

HIVE 窗口及分析函数使用场景www.MyException.Cn 发布于：2013-07-20 11:07:48 浏览：49次 1HIVE 窗口及分析函数应用场景窗口函数应用场景：（1）用于分区排序（2）动态Group By（3）Top N（4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明RANK...

2014-08-11 16:21:13 88

原创 hive 内置函数

1.sort_array():sort_array(array(obj1, obj2,...)) - Sorts the input array in ascending order according to the natural ordering of the array elements.Example: >SELECT sort_array(array('b', 'd', '...

2014-08-11 09:06:07 665

原创 hive lateral view

通过Lateral view可以方便的将UDTF得到的行转列的结果集合在一起提供服务。因为直接在SELECT使用UDTF会存在限制，即仅仅能包含单个字段，如下：hive> select my_test(“abcef:aa”) as qq,my_test(“abcef:aa”) as ww from sunwg01;FAILED: Error in semantic analysis...

2014-08-09 14:59:31 205

疯狂的矩阵