数据治理的流程

最新推荐文章于 2024-07-24 16:25:35 发布

他乡觅知音

最新推荐文章于 2024-07-24 16:25:35 发布

阅读量3.1k

点赞数

分类专栏：大数据文章标签：数据治理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/louisjh/article/details/102475600

版权

大数据专栏收录该内容

5 篇文章 0 订阅

订阅专栏

现在大家都很关注数据治理这个话题，本人在行业内也每天接触和实施的一些项目，下面把我的一些理解分享给大家。
数据源，一般都是OLTP业务系统生产累计下来的数据经过ETL工具进入到布式存储系统中（HDFS），然后通过现有的一些机制如MapReduce或者Spark*（基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的Mapreduce的算法）*进行运算。这中间又涉及到了一些工具或者说叫引擎，如HIVE 底层支持多种不同的执行引擎（Hive on MapReduce、Hive on Tez、Hive on Spark）,通过HIVE 清洗、处理、和计算原始数据。处理完的结果如果是面向海量数据随机查询的场景的就存到HBase中，如果是其他场景的可分存到不同类型的数据库中提供给相应的业务。特定数据应用从HBase中查询分析。其他业务则可回到对应数据库中增删改查。

他乡觅知音

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。