自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Impala与Hbase整合用于ETL过程尝试(3)

一、      性能验证如果真要在生产环境中用,需要验证如下场景:l  正向操作:在impala中通过sql insert大规模的加载或更新hbase的记录l  反向操作:将hbase中的表导出到impala中形成可分析统计的表上述场景如果不满足性能要求,就很难在生产中用于ETL了,而只能是做局部的小批量更新。 1.      样本数据准备为了模拟大数据量,将字段扩展至

2015-12-16 15:02:39 3554

原创 Impala与Hbase整合用于ETL过程尝试(2)

一、      Update操作验证 1.      创建关联副表,用于主键关联update主表 drop table if exists cust_tab01 ;create table if not exists cust_tab01(cust_id string,col_01_01 string,col_01_02 string,col_01_03 s

2015-12-16 14:57:40 839

原创 Impala与Hbase整合用于ETL过程尝试(1)

一、      目标最近我接到这样一个需求:做一张大宽表(多个字段)的加工、存储,宽表由多个副表join关联生成,目前基于Impala类的sql over hadoop实现,由于其中某一个副表信息变动导致大宽表需要执行回溯,现有的技术框架下就需要全表擦除重入(truncate+insert),代价比较大,能否进行部分字段的更新?我想到hbase存宽表 ,Impal与其结合可通过sql方式进行更

2015-12-15 12:24:18 2193

原创 Parquet表在spark与Impala间兼容性测试

一、      背景目前市面上的大数据技术非常多,但苦了我们做方案的,到底哪家强呢?一方面也要去尊重客观事实,一方面要去满足客户期望,而当两者出现冲突的情况下,选择上就有点左右为难。针对sql on hadoop类的组件,hive/Impala/spark-sql/presto,接触过一点,也做过部分的验证,结论暂时与客户所期望的有点出入,因此目前有点小纠结。之所以说是部分验证,因为这里头涉及

2015-12-10 13:56:56 4594

原创 开源GreenPlum编译及部署

GreenPlum今年10月份已经开源出来,得到这个消息有点晚,立刻着手尝鲜试用。尽管当前大数据环境下HADOOP/SPARK是主流,但MPP应有一席之地。具体来讲,我目前所在的是传统行业,数据量TB级左右,结构化数据为主,数据膨胀情况可预见,场景仍然是适用的,关键是避免一系列开发、维护的上的麻烦事,多一个坑不如少一个坑,况且已经开源。从使用者的角度,我能接受这一类的东西。下面我结合我

2015-12-09 09:45:44 2109

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除