数据治理的流程

现在大家都很关注数据治理这个话题,本人在行业内也每天接触和实施的一些项目,下面把我的一些理解分享给大家。
数据源,一般都是OLTP业务系统生产累计下来的数据经过ETL工具进入到布式存储系统中(HDFS),然后通过现有的一些机制如MapReduce或者Spark*(基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的Mapreduce的算法)*进行运算。这中间又涉及到了一些工具或者说叫引擎,如HIVE 底层支持多种不同的执行引擎(Hive on MapReduce、Hive on Tez、Hive on Spark),通过HIVE 清洗、处理、和计算原始数据。处理完的结果如果是面向海量数据随机查询的场景的就存到HBase中,如果是其他场景的可分存到不同类型的数据库中提供给相应的业务。特定数据应用从HBase中查询分析。其他业务则可回到对应数据库中增删改查。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值