Druid 流式与批量数据摄取的结合

最新推荐文章于 2022-07-28 09:58:18 发布

程序员学习圈

最新推荐文章于 2022-07-28 09:58:18 发布

阅读量1k

点赞数

分类专栏： # Druid 文章标签： druid

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Luomingkui1109/article/details/85223827

版权

Druid 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

我们都知道, Druid在摄取时需要设置一个时间窗口, 在时间窗口之外的数据,将会丢弃。我们如何将这部分丢弃的数据重新摄取进Druid系统中,以提高数据的准确性?通常的做法是把数据保存起来, 等待重新摄取。目前比较流行的处理方法是Lambda架构。

1.Lambda架构

Lambda是实时处理框架Storm 的作者Nathan Marz 提出的用于同时处理离线和实时数据的架构理念 Lambda架构(LA)旨在满足一个稳定的大规模数据处理系统所需的修错性、低延迟 ,可扩展的特性。 LA的可行性和必要性基于如下假设利原则。

• 任何效据系统可定义为: query= functional(all data)。

• 人为容错性 (Human Falult-Tolerance):数据是易丢失的。

• 数据不可变(Data Immutability):数据是只读的，不在变化。

• 重新计算(Recomputation):因为上面两个原则，运行函数重新计算结果时可能的。

LA基本架构图：

该架构具有如下特点：

• 所有新数据分别分发到批处理层和实时处理层。

• 批处理层有两个功能:管理主要的数据(该类数据特点只能的加, 不能更新}为下一步计算出批处理视图做预计算。

• 服务层计算出批处理视图中的数据做索引.以提供低延时,即使查询。

• 实时处理层仅处理实时数据，并为服务层提供查询服务。

• 任何查询都可以通过实时处理层和批处理层的查询结果合并得到。

从以上论述我们所以知道,Druid本身就心一个典型的 Lambda 架构系统，Druid有实时节点和所史节点,任何查询都是聚合实时节点和历史节点的数据得到查询结果。那么, 我们如何在Druid 系统之外采用 Lambda 架构的思维去解决时间窗口面临的问题呢?

2.解决时间窗口问题

Druid 在摄取数掘时,对于超山时间窗口的数据会直接丢弃,这对于某些要求数据准确性的系统来说:是不可以接受的,那么就需要重新摄入这部分数据，参考Lambda的思想，实现方式如下：

流程如下：

(1) 源数揭都进人Kafka.

(2) 数据通过实时节点或者索引服务进人Druid中

(3) Kafka 的数据通过 Flume 备份到 Hadoop.

(4) 定时或者发现有教据丢失时,通过 Druid Hadoop Index Job 重新摄人数据

程序员学习圈

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Druid 流式与批量数据摄取的结合

我们都知道, Druid在摄取时需要设置一个时间窗口, 在时间窗口之外的数据,将会丢弃。我们如何将这部分丢弃的数据重新摄取进Druid系统中,以提高数据的准确性?通常的做法是把数据保存起来, 等待重新摄取。目前比较流行的处理方法是Lambda架构。 1.Lambda架构 Lambda是实时处理框架Storm 的作者Nathan Marz 提出的用于同时处理离线和实时数据...
复制链接

扫一扫

专栏目录

程序员学习圈 CSDN认证博客专家 CSDN认证企业博客

码龄8年

651: 原创

2万+: 周排名

119万+: 总排名

102万+: 访问

: 等级

1万+: 积分

835: 粉丝

563: 获赞

113: 评论

1927: 收藏

私信

关注

热门文章

分类专栏

最新评论

元数据与数据治理|Apache Atlas 类型系统与Rest API
、小H: 请问一下atlas重启耗时3小时怎么解决，数据量大概在200w左右
深入对比数据仓库模式：Kimball vs Inmon
bandazhenixn: 如果维度模型是指这两个概念，那他们毫无作用，根本没有解决问题。BI首先是性能问题，顺带解决业务抽象问题，你提到的都没有解决这两个问题
深入对比数据仓库模式：Kimball vs Inmon
yunn6570: 言简意赅
脑裂是什么？Zookeeper是如何解决的？
恋喵大鲤鱼: 你有没有想过，如果分区有 5 个节点，被划分成 2 和 3 个节点。3 个节点中因为有大多数节点，是会选举出新的 Leader 的吧。
脑裂是什么？Zookeeper是如何解决的？
恋喵大鲤鱼: “这种情况下整个集群当机房间的网络断掉后，整个集群将没有Leader。” 想问下，机房 1 不是有老的 Leader 么，为什么说没有 Leader 呢？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

程序员学习圈 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。