流式数仓----未来的一个方向

最新推荐文章于 2024-03-09 15:27:28 发布

keepandkeep

最新推荐文章于 2024-03-09 15:27:28 发布

阅读量375

点赞数

分类专栏：大数据开发文章标签：大数据 hadoop 云计算数据仓库

原文链接：www.baidu.com

版权

大数据开发专栏收录该内容

3 篇文章 0 订阅

订阅专栏

#流式数仓概述
流式数仓（Streaming Warehouse）更准确地说，其实是“make data warehouse streaming”，就是让整个数仓的数据全实时地流动起来，且是以纯流的方式而不是微批（mini-batch）的方式流动。目标是实现一个具备端到端实时性的纯流服务（Streaming Service），用一套 API 分析所有流动中的数据，当源头数据发生变化，比如捕捉到在线服务的 Log 或数据库的 Binlog 以后，就按照提前定义好的 Query 逻辑或数据处理逻辑，对数据进行分析，分析后的数据落到数仓的某一个分层，再从第一个分层向下一个分层流动，然后数仓所有分层会全部流动起来，最终流到一个在线系统里，用户可以看到整个数仓的全实时流动效果。在这个过程中，数据是主动的，而查询是被动的，分析由数据的变化来驱动。同时在垂直方向上，对每一个数据明细层，用户都可以执行 Query 进行主动查询，并且能实时获得查询结果。此外，它还能兼容离线分析场景，API 依然是同一套，实现真正的一体化。
在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
流式数仓----未来的一个方向

目标是实现一个具备端到端实时性的纯流服务（Streaming Service），用一套 API 分析所有流动中的数据，当源头数据发生变化，比如捕捉到在线服务的 Log 或数据库的 Binlog 以后，就按照提前定义好的 Query 逻辑或数据处理逻辑，对数据进行分析，分析后的数据落到数仓的某一个分层，再从第一个分层向下一个分层流动，然后数仓所有分层会全部流动起来，最终流到一个在线系统里，用户可以看到整个数仓的全实时流动效果。在这个过程中，数据是主动的，而查询是被动的，分析由数据的变化来驱动。
复制链接

扫一扫

专栏目录

keepandkeep CSDN认证博客专家 CSDN认证企业博客

码龄5年

33: 原创

104万+: 周排名

58万+: 总排名

3万+: 访问

: 等级

532: 积分

273: 粉丝

18: 获赞

9: 评论

73: 收藏

私信

关注

热门文章

分类专栏

最新评论

pandas.read_csv()编码解析0xb1失败
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
Dinky整合SqlServer
JiangnanJiezi: 大佬，有整理好的代码发一下吗？跪谢
Seatunnel 2.3.0 本地模式 Hazelcast instance is not active!
冰寒潇: 请问是怎么解决的，我也碰到了这个问题
Shell 脚本参数传递时有 \r 换行符问题
CSDN-Ada助手: 夸赞：非常感谢博主的分享和创作，为大家解决了Shell脚本参数传递中的一个常见问题。辛苦啦！下一篇可能的标题：如何在Shell脚本中使用循环语句实现批量操作？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。