E-MapReduce助力建设企业级数据仓库

最新推荐文章于 2024-07-15 19:53:14 发布

weixin_33800593

最新推荐文章于 2024-07-15 19:53:14 发布

阅读量118

点赞数

文章标签：大数据数据库

原文链接：https://yq.aliyun.com/articles/664782

版权

概述

对于大部分的企业，数据一般存在两个地方，一个是业务数据库，一个是日志。一般来讲，数据库数据容量有限，对于历史标记删除的记录一般会做定时清理，但是这些数据往往还是很有价值的。数据库计算能力也有限，如果要做一些数据分析，则会浪费宝贵的计算资源。
一些数据分析会横跨不能的部门，不同的业务线，往往需要不同DB之间，甚至需要跟日志做一些关联，这时就会有一个新的部门，数据仓库部门或者数据分析部门。此部门需要做第一件事情就是需要把不同的业务线的数据统统收集到一个中心。以往选择数据处理技术往往是一些商业的数据仓库。在Hadoop技术来临之后，由于其易用性、高度扩展性、低成本的优势，受到了越来越多的公司使用。本文将简单介绍使用E-MapReduce建设数据仓库。

建立数据仓库

大致的架构如下图所示：

screenshot

在RDS mysql部分的数据，可以每天晚上同步一次全量的数据到离线存储中，使用emapreduce sqoop，按照日期建立分区。
查询时，可以按照
```
select count(*) form cluster where ds='2016-08-28'
```

日志数据可以采取logservice同步到OSS中，或者使用flume同步到emapreduce hdfs中。也是按照日期做分区。

日志收集好后，就可以采取hive或者spark引擎分析日志了，比如出报表，则可以把算完的数据插入到emapreduce hbase中或者RDS mysql中，再通过阿里云提供的quick bi出报表。每天早上就可以看到前一天的业务状况等信息了。

作业执行

同步作业及分析作业可以采取阿里云emapreduce提供的执行计划来运行，可以新建一个执行计划，串联多个作业，当同步作业完成后，就开始分析作业。这里还提供了作业失败报警，启动超时报警等实用功能。

screenshot

HBase技术交流社区 - 阿里官方“HBase生态+Spark社区大群”点击加入：https://dwz.cn/Fvqv066s

weixin_33800593

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
E-MapReduce助力建设企业级数据仓库

概述对于大部分的企业，数据一般存在两个地方，一个是业务数据库，一个是日志。一般来讲，数据库数据容量有限，对于历史标记删除的记录一般会做定时清理，但是这些数据往往还是很有价值的。数据库计算能力也有限，如果要做一些数据分析，则会浪费宝贵的计算资源。一些数据分析会横跨不能的部门，不同的业务线，往往需要不同DB之间，甚至需要跟日志做一些关联，这时就会有一个...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。