自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 hive 数据倾斜

链接:http://www.alidata.org/archives/2109数据倾斜总结 在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。H...

2014-08-27 09:03:54 82

原创 hive 分通总结

总结分析:1. 定义了桶,但要生成桶的数据,只能是由其他表通过insert into 或是insert overwrite ,若表有分区只能使用insert overwrite 2. 定义桶可以使用整型字段或是string类型字段3. 若表没有定义桶也可以进行随机抽样4. 必须先set hive.enforce.bucketing = true才可以将数据正常写入...

2014-08-27 08:42:15 185

原创 深入了解Hive Index具体实现

索引是标准的数据库技术,hive 0.7版本之后支持索引。hive索引采用的不是'one size fites all'的索引实现方式,而是提供插入式接口,并且提供一个具体的索引实现作为参考。Hive的Index接口如下:复制代码public interface HiveIndexHandler extends Configurable { /** * Determine...

2014-08-25 08:51:08 178

原创 explain hive index

设置索引:使用聚合索引优化groupby操作hive> set hive.optimize.index.groupby=false;自动使用索引hive> set hive.optimize.index.filter=true; 设置自动使用索引的最小输入字节数hive>set hive.optimize.index.fil...

2014-08-24 16:44:01 129

原创 Hadoop工作流引擎之Azkaban

Hadoop工作流引擎之AzkabanEdit介绍Azkaban是twitter出的一个任务调度系统,操作比Oozie要简单很多而且非常直观,提供的功能比较简单。Azkaban以Flow为执行单元进行定时调度,Flow就是预定义好的由一个或多个可存在依赖关系的Job组成的工作流。Azkaban的官方主页是http://azkaban.github.io/azkaban2/ ,它的的...

2014-08-21 14:18:42 149

原创 Azkaban的安装

Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。它有如下功能特点:• Web用户界面 •方便上传工作流•方便设置任务之间的关系•调度工作流• 认证/授权(权限的工作) •能够杀死...

2014-08-20 15:43:57 145

原创 Hive 中内部表与外部表的区别与创建方法

分类: Hive 2013-12-07 11:56 1806人阅读 评论(0) 收藏 举报先来说下Hive中内部表与外部表的区别: Hive 创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径, 不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除, 而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也...

2014-08-15 17:11:01 130

原创 hive map和reduce的控制

一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有...

2014-08-15 16:14:24 124

原创 hive 压缩策略

Hive使用的是Hadoop的文件系统和文件格式,比如TEXTFILE,SEQUENCEFILE等。 在Hive中对中间数据或最终数据数据做压缩,是提高数据吞吐量和性能的一种手段。对数据做压缩,可以大量减少磁盘的存储空间,比如基于文本的数据文件, 可以将文件压缩40%或更多,同时压缩后的文件在磁盘间传输和I/O也会大大减少;当然压缩和解压缩也会带来额外的CPU开销,但是却可以...

2014-08-15 15:16:29 149

原创 hive 在mysql中创建备用数据库

修改hive-site.xml javax.jdo.option.ConnectionURL jdbc:mysql://vmtmstorm01:3306/hive2?useUnicode=true&characterEncoding=UTF-8 javax.jdo.option.ConnectionDriverName com.m...

2014-08-15 09:21:52 258

原创 HIVE 窗口及分析函数

HIVE 窗口及分析函数 使用场景www.MyException.Cn 发布于:2013-07-20 11:07:48 浏览:49次 1HIVE 窗口及分析函数 应用场景窗口函数应用场景:(1)用于分区排序(2)动态Group By(3)Top N(4)累计计算(5)层次查询 一、分析函数用于等级、百分点、n分片等。函数 说明RANK...

2014-08-11 16:21:13 88

原创 hive 内置函数

1.sort_array():sort_array(array(obj1, obj2,...)) - Sorts the input array in ascending order according to the natural ordering of the array elements.Example: >SELECT sort_array(array('b', 'd', '...

2014-08-11 09:06:07 665

原创 hive lateral view

通过Lateral view可以方便的将UDTF得到的行转列的结果集合在一起提供服务。因为直接在SELECT使用UDTF会存在限制,即仅仅能包含单个字段,如下:hive> select my_test(“abcef:aa”) as qq,my_test(“abcef:aa”) as ww from sunwg01;FAILED: Error in semantic analysis...

2014-08-09 14:59:31 205

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除