095实战 ETL的数据来源，处理，保存

最新推荐文章于 2021-11-19 23:02:02 发布

??yy

最新推荐文章于 2021-11-19 23:02:02 发布

阅读量144

点赞数

文章标签：大数据数据库

1.ETL

　　数据来源：HDFS

　　处理方式：Mapreduce

　　数据保存：HBase

　　

2.为什么保存在Hbase中

　　数据字段格式不唯一/不相同/不固定，采用hbase的动态列的功能非常适合
　　因为我们的分析一般情况下，是对于部分事件数据进行分析的，不需要所有的数据，希望将数据的初步过滤放到服务器上进行操作，所以采用hbase的regionserver来过滤初步的条件(scan的filter机制)
　　

　　

3.HBase注意点

　　

4.数据处理　　

　　MapReduce
　　　　数据流: hbase -> mapreduce -> mysql
　　Hive
　　　　数据流：hbase -> hive -> hdfs -> sqoop -> mysql

5.来源HDFS

　　这些数据是在flume中收集来的数据，这些数据在前面已经被上传到HDFS。

　　

　　

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
095实战 ETL的数据来源，处理，保存

1.ETL　　数据来源：HDFS　　处理方式：Mapreduce　　数据保存：HBase 　　 2.为什么保存在Hbase中　　数据字段格式不唯一/不相同/不固定，采用hbase的动态列的功能非常适合　　因为我们的分析一般情况下，是对于部分事件数据进行分析的，不需要所有的数据，希望将数据的初步过滤放到服务器上进行操作，所以采用hbase的regionserver来过滤初步的条件(sc...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。