fishhunter-CSDN博客

原创 Impala与Hbase整合用于ETL过程尝试（3）

一、性能验证如果真要在生产环境中用，需要验证如下场景：l 正向操作：在impala中通过sql insert大规模的加载或更新hbase的记录l 反向操作：将hbase中的表导出到impala中形成可分析统计的表上述场景如果不满足性能要求，就很难在生产中用于ETL了，而只能是做局部的小批量更新。 1. 样本数据准备为了模拟大数据量，将字段扩展至

2015-12-16 15:02:39 3565

原创 Impala与Hbase整合用于ETL过程尝试（2）

一、 Update操作验证 1. 创建关联副表，用于主键关联update主表 drop table if exists cust_tab01 ;create table if not exists cust_tab01(cust_id string,col_01_01 string,col_01_02 string,col_01_03 s

2015-12-16 14:57:40 845

原创 Impala与Hbase整合用于ETL过程尝试（1）

一、目标最近我接到这样一个需求：做一张大宽表（多个字段）的加工、存储，宽表由多个副表join关联生成，目前基于Impala类的sql over hadoop实现，由于其中某一个副表信息变动导致大宽表需要执行回溯，现有的技术框架下就需要全表擦除重入(truncate+insert)，代价比较大，能否进行部分字段的更新？我想到hbase存宽表 ,Impal与其结合可通过sql方式进行更

2015-12-15 12:24:18 2202

原创 Parquet表在spark与Impala间兼容性测试

一、背景目前市面上的大数据技术非常多，但苦了我们做方案的，到底哪家强呢？一方面也要去尊重客观事实，一方面要去满足客户期望，而当两者出现冲突的情况下，选择上就有点左右为难。针对sql on hadoop类的组件，hive/Impala/spark-sql/presto，接触过一点，也做过部分的验证，结论暂时与客户所期望的有点出入，因此目前有点小纠结。之所以说是部分验证，因为这里头涉及

2015-12-10 13:56:56 4614

原创开源GreenPlum编译及部署

GreenPlum今年10月份已经开源出来，得到这个消息有点晚，立刻着手尝鲜试用。尽管当前大数据环境下HADOOP/SPARK是主流，但MPP应有一席之地。具体来讲，我目前所在的是传统行业，数据量TB级左右，结构化数据为主，数据膨胀情况可预见，场景仍然是适用的，关键是避免一系列开发、维护的上的麻烦事，多一个坑不如少一个坑，况且已经开源。从使用者的角度，我能接受这一类的东西。下面我结合我

2015-12-09 09:45:44 2116

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 Impala与Hbase整合用于ETL过程尝试（3）

原创 Impala与Hbase整合用于ETL过程尝试（2）

原创 Impala与Hbase整合用于ETL过程尝试（1）

原创 Parquet表在spark与Impala间兼容性测试

原创 开源GreenPlum编译及部署

空空如也

空空如也

原创开源GreenPlum编译及部署