使用 hadoop组件作为 ETL 或 ELT 工具

最新推荐文章于 2024-09-18 11:25:17 发布

富兰克林008

最新推荐文章于 2024-09-18 11:25:17 发布

阅读量3.3k

点赞数

分类专栏： Impala ETL

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/oufuji/article/details/50326299

版权

本文介绍了使用Hadoop组件，特别是Impala，作为ETL或ELT工具的方法。建议在Impala中直接创建和查询表，避免在Hive和Impala之间切换。当有多个用户时，可以通过刷新元数据来处理。主要流程包括向HDFS上传压缩文件，设置文件的可读权限，然后通过Impala进行数据分析和处理。

摘要由CSDN通过智能技术生成

看了IBM上的一个帖子：

http://www.ibm.com/developerworks/cn/data/library/bd-hivetool/
使用 Hive 作为 ETL 或 ELT 工具

觉得，数据量很大的情况下，确实可以使用hadoop的组件来做ETL，hdfs存储全部的原始数据，需要的时候通过Hive，sparkSQL或者Impala查询。
前提就是先建议Hive外部表的metastore，然后供sparkSQL和Impala访问。

hive metastore的架构关系（metastore三种部署方式，CDH5里面按照Remote模式）

大致明白过程了，开工：

1、Hive的安装

2、测试Hive建外部表（txt,csv,bz2,gz各种格式）

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。