大数据实战之数仓项目（二）后续架构构想及近期安排

最新推荐文章于 2024-06-18 10:07:01 发布

菜鸟周星星

最新推荐文章于 2024-06-18 10:07:01 发布

阅读量204

点赞数

分类专栏：项目 hive spark 文章标签： hadoop spark hdfs kafka

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42083008/article/details/118230559

版权

hive 同时被 3 个专栏收录

11 篇文章 0 订阅

订阅专栏

8 篇文章 1 订阅

订阅专栏

5 篇文章 1 订阅

订阅专栏

大家好，今天手画了一幅后续架构构想【如下图】

现在行业内数仓架构比较流行的即是kimball模型

从

第一步数据抽取（业务数据库【binlog增量同步/cdc、埋点日志】、外部数据【网络爬虫】、文件类数据【csv、json文件等】）抽取采集到介质hdfs/hive 中存储起来

到第二步ETL层（Extract抽取、Transform转换、Load装载），在这一层会进行数据汇聚、集成、清洗、转换、过滤，最终落入到数仓的ods（数据贴源层）【operator data store】

到第三步：数仓的搭建层，根据实际业务需求，搭建多维企业级数据仓库，需要关注的是建模思想，维度建模、星型模型、雪花模型，这一层也是装载层，数仓内各层数据层层流转、装载

到第四步：应用层，为上层应用提供数据服务【即系查询、报表工具、仪表盘、数据可视化工具】

最近在做漏斗分析模型的需求，但一直调用的是别人写好的自定义的udaf，所以没什么难度，接下来，我将在理论中实践，以贴合实际需求为基础，寻求真理。

接下来文章安排：

1、日志数据采集部分----->作为生产者生产数据到kafka当中

2、使用spark/spark-streaming进行数据处理，将处理好的数据写入到数仓中的ods层（hive的表中）

3、presto的学习（presto的安装及使用）

4、漏斗分析模型的原理及presto 自定义udaf的编写以实现核心漏斗功能

presto注册自定义udaf函数，集成hive表数据，进行漏斗分析

在此之前，需模拟好日志事件数据，以便后续进行采集【如下图】

更多学习、面试资料尽在微信公众号：Hadoop大数据开发

大数据学习/离线项目/实时项目/面试/内推交流QQ群：139809179

菜鸟周星星

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
大数据实战之数仓项目（二）后续架构构想及近期安排

大家好，今天手画了一幅后续架构构想【如下图】现在行业内数仓架构比较流行的即是kimball模型从第一步数据抽取（业务数据库【binlog增量同步/cdc、埋点日志】、外部数据【网络爬虫】、文件类数据【csv、json文件等】）抽取采集到介质hdfs/hive中存储起来到第二步ETL层（Extract抽取、Transform转换、Load装载），在这一层会进行数据汇聚、集成、清洗、转换、过滤，最终落入到数仓的ods（数据贴源层）【operator data store】..
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。