大家好,今天手画了一幅后续架构构想【如下图】
现在行业内数仓架构比较流行的即是kimball模型
从
第一步数据抽取(业务数据库【binlog增量同步/cdc、埋点日志】、外部数据【网络爬虫】、文件类数据【csv、json文件等】)抽取采集到介质hdfs/hive 中存储起来
到第二步ETL层(Extract抽取、Transform转换、Load装载),在这一层会进行数据汇聚、集成、清洗、转换、过滤,最终落入到数仓的ods(数据贴源层)【operator data store】
到第三步:数仓的搭建层,根据实际业务需求,搭建多维企业级数据仓库,需要关注的是建模思想,维度建模、星型模型、雪花模型,这一层也是装载层,数仓内各层数据层层流转、装载
到第四步:应用层,为上层应用提供数据服务【即系查询、报表工具、仪表盘、数据可视化工具】
最近在做漏斗分析模型的需求,但一直调用的是别人写好的自定义的udaf,所以没什么难度,接下来,我将在理论中实践,以贴合实际需求为基础,寻求真理。
接下来文章安排:
1、日志数据采集部分----->作为生产者生产数据到kafka当中
2、使用spark/spark-streaming进行数据处理,将处理好的数据写入到数仓中的ods层(hive的表中)
3、presto的学习(presto的安装及使用)
4、漏斗分析模型的原理及presto 自定义udaf的编写以实现核心漏斗功能
presto注册自定义udaf函数,集成hive表数据,进行漏斗分析
在此之前,需模拟好日志事件数据,以便后续进行采集【如下图】
更多学习、面试资料尽在微信公众号:Hadoop大数据开发
大数据学习/离线项目/实时项目/面试/内推 交流QQ群:139809179