最近在做hive相关的项目,以前做spark也没有太关注数仓,这更多的是关于切入问题解决问题的思路记录。
主要就是基于主题库的数据建立对应的专题库以供对应专题服务。一开始因为spark招的我,结果让我来做hive,没办法,拿人钱财,替人解忧,于是乎哼哧哼哧做数仓去了,但是没有经验的我,又没人带只有自己加油搞了咯。好歹自己还有些hive的底子。
速成策略:
1.首先了解数仓相关知识
2.了解事实表与维度表的建立与实施,
3.找出业务需求然后寻找对应的解决方案。
4,后期开发顺利推进。
- 1,数仓
学习一样新的东西不都得是先概念再具体嘛,不然做得一脸懵逼,出来的成果也是不合适。
1.1上图先,毕竟图片易于理解
数据仓库的分层结构,有人说是基于ETL作为基础来分层的,(抽取,清洗,转换,加载(mysql))但是基于上图可能会更具体一些,主要就是贴近我们这个项目。
1.2通过这样子的一个架构明确我就可以明确自己接下的工作方向了。
从原子层(主题)的数据转换整合成对应专题库的数据,然后再加载到mysql供展现层调用数据。