Druid原理分析之“批”任务数据流转过程

最新推荐文章于 2024-12-05 18:06:23 发布

原创最新推荐文章于 2024-12-05 18:06:23 发布 · 683 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#Druid

Druid 专栏收录该内容

17 篇文章

订阅专栏

本文以HDFS中的数据作为数据源，描述Druid中对批数据的处理流程：

向Druid中提交批数据处理请求。Druid中的批处理任务会从HDFS中获取原数据。
批任务会根据处理请求生成segment，并将生成的segments存到Deep Storage（HDFS）中。
将生成的segment的元数据信息保存到元数据存储DB（如MySQL）
Coordinator会定时从元数据存储DB中查新生成的segment信息。
Coordinator将这些segment的信息写入Zookeeper的loadqueue中。
Historical节点监听ZooKeeper中的loadqueue，并从loadqueue中获取其需要加载的segment信息。
Historical节点从Deep Storage下载所需要的segment到本地磁盘。
加载完成后，Historical将下载的这些segment注册到ZooKeeper中。
客户端查询时，首先将请求发送到Broker，然后Broker首先从缓存中查找是否有需要的数据。
如果没有，Broker会从ZooKeeper中获取segment信息。
将查询请求发送至相关Historical节点，Historical节点进行计算后，将各自的部分查询结果返回给Broker。
Broker聚合后将结果返回给客户端。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

xiaolongleee

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

HBase与MapReduce深度整合,轻松实现海量数据分析

AI天才研究院

05-28

728

HBase与MapReduce深度整合,轻松实现海量数据分析作者：禅与计算机程序设计艺术 1. 背景介绍随着大数据时代的到来,企业需要处理和分析的数据量呈爆炸式增长。传统的关系型数据库已经无法满足海量数据存储和实时查询分析的需求。HBase作为一

开源数据平台构建：从0到1搭建企业级数据平台系统

AI天才研究院

08-08

2127

数据平台作为业务数据的重要基础设施，其提供的数据服务和分析能力已成为公司各部门协同工作、高效沟通、提升工作效率的关键。然而，由于不同行业领域需求的差异性、不同数据规模和复杂度等多种因素的影响，制造出具有高质量、低延迟、易扩展、可靠、安全、易用的数据平台也面临着巨大的挑战。近年来，随着云计算、容器技术和微服务架构的普及，基于开源解决方案构建数据平台这一需求越来越受到社会的广泛关注，数据平台构建成本越来越低，市场竞争日益激烈。

参与评论您还未登录，请先登录后发表或查看评论

批处理&流处理区别

记录分享成就

03-12

569

批处理存量数据定时任务多条数据数据分析，如：BI，报表没有实时性要求处理过程中一般不存储，或者存储快照。流处理增量数据事件驱动单条数据实时数据处理，如：告警，监控实时处理中间过程数据需要处理。概念目标数据触发方式数据包规模场景实时性数据存储。

HCLE的笔记---一个数据的流转过程

weixin_34375054的博客

11-18

292

在应用层产生的数据PDU ，到传输层的数据段，到网络层的数据包，到链路层的数据帧通过介质比特-到对端开始分解链路层的数据帧---网络层的数据包---传输层的数据段----应用层接受数据转载于:https://blog.51cto.com/aierlan0918/1983109...

【理解 Cilium 系列文章】(二) 理解网络数据包的流转过程

云原生Serverless的专栏

08-28

2218

Cilium 作为近两年最火的云原生网络方案，可谓是风头无两。作为第一个通过 ebpf 实现了 kube-proxy 所有功能的网络插件，它的神秘面纱究竟是怎样的呢？本系列文章将带大家一起来慢慢揭晓作为《理解 Cilium系列文章》的第二篇，本文主要介绍 Cilium 网络相关知识点，为后续 Cilium 的深入了解做铺垫。了解 Cilium 是如何在网络流转的路径中做拦截处理的之前的两篇文章【25 张图，一万字，拆解 Linux 网络包发送过程】和【图解Linux网络包接收过程】主要从源码层次介绍了 Li

工作流-数据流转

蓝天⊙白云的博客

11-11

1635

部署流程时会保存3张表：act_re_deployment、act_re_procdef、act_re_bytearray。

一文了解网络数据在内核中流转过程

Chinese_big_boy的博客

08-25

1120

【干货】一文理解Druid原理架构（时序数据库，不是ali的数据库连接池）

等风等雨等你

09-10

1005

Druid.io（以下简称Druid）是2013年底开源出来的，主要解决的是对实时数据以及较近时间的历史数据的多维查询提供高并发(多用户)，低延时，高可靠性的问题。 Druid简介： Druid是一个为在大数据集之上做实时统计分析而设计的开源数据存储。这个系统集合了一个面向列存储的层，一个分布式、shared-nothing的架构，和一个高级的索引结构，来达成在秒级以内对十亿行级别的表进...

大数据新视界 -- 大数据大厂之 Hive 临时表与视图：灵活数据处理的技巧（上）（29 / 30）

12-05

4153

本文深度剖析 Hive 临时表与视图，从原理到实践全方位解读其特性、创建技艺、应用场景及协同策略，佐以多元案例与精准代码，为大数据从业者呈献高效数据处理的智慧锦囊与实操宝典，引领灵活数据分析新潮流。

大数据新视界 -- 大数据大厂之 Hive 数据压缩：优化存储与传输的关键（上）（19/ 30）

11-30

3608

本文承前启后，聚焦 Hive 数据压缩，深挖压缩算法（原理、Hive 支持算法及选策），详呈表与分区压缩实战、细究查询性能平衡，佐以多行业案例，具实操价值，设互动引下篇，助优化存储传输。

基本使用场景与数据流转过程

个人技术博客

04-17

381

Libevent的使用比较的简单，基本上就是需要下面几步就可以1）创建一个struct event_base对象2）注册要监控的事件以及设置对应的回调函数3）开启事件循环。

鸿蒙HarmonyOS开发实战—流转（多端协同一）_鸿蒙任务流转开发

2301_82241698的博客

04-14

1036

开发者在应用FA中通过调用流转任务管理服务、分布式任务调度的接口，实现多端协同。设备A上的应用FA向流转任务管理服务注册一个流转回调。Alt1-系统推荐流转：系统感知周边有可用设备后，主动为用户提供可选择流转的设备信息，并在用户完成设备选择后回调onConnected通知应用FA开始流转，将用户选择的设备B的设备信息提供给应用FA。

Durid

u011280083的博客

10-27

1280

Durid(一): 原理架构 Posted on 2016-11-22 05:35 天戈朱阅读(1765) 评论(1) 编辑收藏 source:http://www.cnblogs.com/tgzhu/p/6077846.html Durid是在2013年底开源出来的，当前最新版本0.9.2, 主要解决的是对实时数据以及较近时间的历史数据的多维查询提供高并发(多用

Druid原理分析之“流”任务数据流转过程

小龙的博客

04-03

1933

本文以kafka indexing service和下图为例，描述流任务中Druid从数据摄取到数据查询的全部流程：往Druid提交流任务任务后，kafka indexing service根据提交的json描述，将kafka中的原始数据按时间片，维度来进行聚合，生成segment。segment片生成以后，kafka indexing service会将此部分数据注册到Zookeeper，以供B...

流处理(stream)与批处理(batch)讲解

qq_73339471的博客

03-08

1047

流处理和批处理

如何看待华为鸿蒙的任务流转功能？

Harmony_wang的博客

03-17

5093

前段时间，老王在网上看到很多鸿蒙OS的内测用户在升级新版后，获得了一项新功能。按照官方的描述嘛，这项新功能叫做【跨设备任务管理】。听着挺玄乎的，但老王从网上的视频看到，这功能实现起来，真的能让人喊上一句“卧X”。具体来说，【跨设备任务管理】能让两台搭载Harmony OS2的手机或者平板实现后台任务的互相流转。比如把手机正在玩的王者荣耀，流转到MatePad上，享受大屏的游戏体验。又比如把平板上正在观看的视频流转到手机，过程无缝衔接。最骚的是，手机上甚至不需要安装被流转.

Druid学习之路（五）Druid的数据摄取任务类型

weixin_30562507的博客

10-31

245

作者：Syn良子出处：https://www.cnblogs.com/cssdongl/p/9885534.html 转载请注明出处 Druid的数据摄取任务类型 Druid支持很多种类型的数据摄取任务.任务通过CURL POST的方式提交到Overlord节点然后分配给middle manager运行. Segment创建任务类型本地批处理索引任务本地批处理摄取任务 { "type" ...

Druid大数据实时处理的开源分布式系统——Broker

我是Alvin家鸡鸭鱼的小米米

10-23

2271

第三篇，关于Druid的Broker节点 Broker节点接收来自外部客户端的查询，并将这些查询转发到Realtime和Historical节点。当Broker节点收到结果，它们将合并这些结果并将它们返回给调用者。由于了解拓扑，Broker节点使用Zookeeper来确定哪些Realtime和Historical节点的存在。 Broker 主要完成如下功能： 1. Forward

大数据繁荣生态圈组件之实时大数据Druid小传(二)Druid架构与原理

Maynor的博客

04-20

629

Druid架构与原理解析

Druid入门教程：三种数据摄入与任务提交方法

"Apache Druid是一个高性能的列式存储系统，常用于实时数据分析和大数据处理。本文将通过三个示例介绍如何使用Druid摄入数据并提交任务。首先，我们需要确保Druid集群已经部署并正常运行。" Apache Druid是一个针对...