大数据实战之数仓项目(二)后续架构构想及近期安排

8 篇文章 1 订阅
5 篇文章 1 订阅

大家好,今天手画了一幅后续架构构想【如下图】

 

图片

现在行业内数仓架构比较流行的即是kimball模型

第一步数据抽取(业务数据库【binlog增量同步/cdc、埋点日志】、外部数据【网络爬虫】、文件类数据【csv、json文件等】)抽取采集到介质hdfs/hive 中存储起来

到第二步ETL层(Extract抽取、Transform转换、Load装载),在这一层会进行数据汇聚、集成、清洗、转换、过滤,最终落入到数仓的ods(数据贴源层)【operator data store】

到第三步:数仓的搭建层,根据实际业务需求,搭建多维企业级数据仓库,需要关注的是建模思想,维度建模、星型模型、雪花模型,这一层也是装载层,数仓内各层数据层层流转、装载

到第四步:应用层,为上层应用提供数据服务【即系查询、报表工具、仪表盘、数据可视化工具】

最近在做漏斗分析模型的需求,但一直调用的是别人写好的自定义的udaf,所以没什么难度,接下来,我将在理论中实践,以贴合实际需求为基础,寻求真理。

接下来文章安排:

1、日志数据采集部分----->作为生产者生产数据到kafka当中

2、使用spark/spark-streaming进行数据处理,将处理好的数据写入到数仓中的ods层(hive的表中)

3、presto的学习(presto的安装及使用)

4、漏斗分析模型的原理及presto 自定义udaf的编写以实现核心漏斗功能

presto注册自定义udaf函数,集成hive表数据,进行漏斗分析

在此之前,需模拟好日志事件数据,以便后续进行采集【如下图】

图片

更多学习、面试资料尽在微信公众号:Hadoop大数据开发 

大数据学习/离线项目/实时项目/面试/内推 交流QQ群:139809179

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值