看了IBM上的一个帖子:
http://www.ibm.com/developerworks/cn/data/library/bd-hivetool/
使用 Hive 作为 ETL 或 ELT 工具
觉得,数据量很大的情况下,确实可以使用hadoop的组件来做ETL,hdfs存储全部的原始数据,需要的时候通过Hive,sparkSQL或者Impala查询。
前提就是先建议Hive外部表的metastore,然后供sparkSQL和Impala访问。
hive metastore的架构关系(metastore三种部署方式,CDH5里面按照Remote模式)
大致明白过程了,开工:
1、Hive的安装
2、测试Hive建外部表(txt,csv,bz2,gz各种格式)
http://www.ibm.com/developerworks/cn/data/library/bd-hivetool/
使用 Hive 作为 ETL 或 ELT 工具
觉得,数据量很大的情况下,确实可以使用hadoop的组件来做ETL,hdfs存储全部的原始数据,需要的时候通过Hive,sparkSQL或者Impala查询。
前提就是先建议Hive外部表的metastore,然后供sparkSQL和Impala访问。
hive metastore的架构关系(metastore三种部署方式,CDH5里面按照Remote模式)
大致明白过程了,开工:
1、Hive的安装
2、测试Hive建外部表(txt,csv,bz2,gz各种格式)