- 博客(5)
- 资源 (15)
- 收藏
- 关注
原创 hive2hive mtods自动设置权限实现
由于在galaxy上建hive2hive任务时会自动使用bipreempt帐号创建mtods表,但wormhole在运行hive2hive同步任务时使用sync_shanghai帐号读取北京侧hive表数据,然后写入上海侧mtods表所在hdfs路径,此时会出现写入没有权限的问题。因此需要将目录owner设置为sync_shanghai或将目录的group权限设置为可写。 (最初采用的是第一
2017-03-17 16:02:42 651
原创 Wormhole大盘
需求 wormhole大盘的主要目标是用于反映wormhole总体的运行情况,其需求来自于一些问题的思考,随便摘录几个: 1.众所周知执行机在0点5分开始是传输任务执行高峰期,那在最高峰时,如何知道一个执行机上最多有几个wormhole同时在运行? 2.想知道执行机上各个时间段在运行的传输任务数是怎么个分布情况,当时有哪些任务在执行,最好有个图能够一目了然的展示。 3.想知
2017-03-17 15:51:15 726
原创 Wormhole、MergeDelta优化
mergedelta优化点 1.不带分区的全量hive表,如果wormhole传输数据量为0,即没有更新数据时,不需要进行merge操作 2.优化hive log输出 -----------------------------------------------------------------------------------------------------------
2017-03-17 15:48:12 552
原创 MergeDelta2.0实现
实现了由mergedelta调用的任务对结果写成ORC格式的支持。但部分ods任务是由starshuttle调用的,即hive表是增量表的mysql2hive任务。本文主要说明mergedelta对将增量表支持写ORC的实现。 为了将增量表改造为ORC,那么wormhole不能直接写入目标表所在目录,需要先将TEXT结果存在临时目录,再转换为ORC格式。这个过程和mergedelta有相似之
2017-03-17 15:47:45 518
原创 MergeDelta增加写ORC格式功能
改造目的:主要是为了支持将ods表的merge结果写成ORC文件格式 原理:使用HCatalog重写merge的mapreduce过程,HCatalog可以屏蔽hive表的文件存储格式,不需要关心hive表是使用text格式还是orc格式 需要考虑的问题: 1. 任务如何区分是要写成orc还是写成text? HCatalog会根据目标表表的存储方式来写成相应格式,即如果目标
2017-03-17 15:46:59 1147
Gson-2.2.4.jar
2014-11-17
commons--httpclient.jar
2013-05-03
Java读写Excel的jar包
2012-08-01
浙江省历年三级网络技术真题(含答案)
2010-04-23
王爽《汇编语言》答案
2010-03-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人