- 博客(5)
- 收藏
- 关注
原创 Impala与Hbase整合用于ETL过程尝试(3)
一、 性能验证如果真要在生产环境中用,需要验证如下场景:l 正向操作:在impala中通过sql insert大规模的加载或更新hbase的记录l 反向操作:将hbase中的表导出到impala中形成可分析统计的表上述场景如果不满足性能要求,就很难在生产中用于ETL了,而只能是做局部的小批量更新。 1. 样本数据准备为了模拟大数据量,将字段扩展至
2015-12-16 15:02:39
3554
原创 Impala与Hbase整合用于ETL过程尝试(2)
一、 Update操作验证 1. 创建关联副表,用于主键关联update主表 drop table if exists cust_tab01 ;create table if not exists cust_tab01(cust_id string,col_01_01 string,col_01_02 string,col_01_03 s
2015-12-16 14:57:40
839
原创 Impala与Hbase整合用于ETL过程尝试(1)
一、 目标最近我接到这样一个需求:做一张大宽表(多个字段)的加工、存储,宽表由多个副表join关联生成,目前基于Impala类的sql over hadoop实现,由于其中某一个副表信息变动导致大宽表需要执行回溯,现有的技术框架下就需要全表擦除重入(truncate+insert),代价比较大,能否进行部分字段的更新?我想到hbase存宽表 ,Impal与其结合可通过sql方式进行更
2015-12-15 12:24:18
2193
原创 Parquet表在spark与Impala间兼容性测试
一、 背景目前市面上的大数据技术非常多,但苦了我们做方案的,到底哪家强呢?一方面也要去尊重客观事实,一方面要去满足客户期望,而当两者出现冲突的情况下,选择上就有点左右为难。针对sql on hadoop类的组件,hive/Impala/spark-sql/presto,接触过一点,也做过部分的验证,结论暂时与客户所期望的有点出入,因此目前有点小纠结。之所以说是部分验证,因为这里头涉及
2015-12-10 13:56:56
4594
原创 开源GreenPlum编译及部署
GreenPlum今年10月份已经开源出来,得到这个消息有点晚,立刻着手尝鲜试用。尽管当前大数据环境下HADOOP/SPARK是主流,但MPP应有一席之地。具体来讲,我目前所在的是传统行业,数据量TB级左右,结构化数据为主,数据膨胀情况可预见,场景仍然是适用的,关键是避免一系列开发、维护的上的麻烦事,多一个坑不如少一个坑,况且已经开源。从使用者的角度,我能接受这一类的东西。下面我结合我
2015-12-09 09:45:44
2109
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人