Apache Druid 数据摄取---本地数据和kafka流式数据

程序媛汤圆儿

于 2023-04-24 13:29:22 发布

阅读量193

点赞数

文章标签： apache kafka 数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39158966/article/details/130340706

版权

Apache Druid 是一个高性能实时分析数据库，支持从本地文件和Kafka流式数据进行数据摄取。本文详细介绍了如何通过Druid UI加载本地文件，包括数据选择、数据源配置、过滤器设置等步骤，以及如何设置Kafka数据源，发送和消费消息，确保数据正确摄入Druid。

摘要由CSDN通过智能技术生成

Durid概述

Apache Druid是一个集时间序列数据库、数据仓库和全文检索系统特点于一体的分析性数据平台。本文将带你简单了解Druid的特性，使用场景，技术特点和架构。这将有助于你选型数据存储方案，深入了解Druid存储，深入了解时间序列存储等。

Apache Druid是一个高性能的实时分析型数据库。

上篇文章，我们了解了Druid的加载方式，

咱么主要说两种，一种是加载本地数据，一种是通过kafka加载流式数据。

数据摄取

4.1 加载本地文件

我们导入演示案例种的演示文件

4.1.1.1 数据选择

通过UI选择local disk

并选择Connect data

4.1.1.2 演示数据查看

演示数据在quickstart/tutorial目录下的wikiticker-2015-09-12-sampled.json.gz文件

4.1.1.3 选择数据源

因为我们是通过imply安装的，在Base directory输入绝对路径/usr/local/imply/imply-2021.05-1/dist/druid/quickstart/tutorial,File filter输入wikiticker-2015-09-12-sampled.json.gz,并选择apply应用配置，我们数据已经加载进来了

Base directory 和 File filter 分开是因为可能需要同时从多个文件中摄取数据。

4.1.1.4 加载数据

数据定位后，您可以点击"Next: Parse data"来进入下一步。

数据加载器将尝试自动为数据确定正确的解析器。在这种情况下，它将成功确定json。可以随意使用不同的解析器选项来预览Druid如何解析您的数据。

4.1.2 数据源规范配置

4.1.2.1 设置时间列

json 选择器被选中后，点击 Next：Parse time 进入下一步来决定您的主时间列。

Druid的体系结构需要一个主时间列（内部存储为名为_time的列）。如果您的数据中没有时间戳，请选择 固定值（Constant Value） 。在我们的示例中，数据加载器将确定原始数据中的时间列是唯一可用作主时间列的候选者。

这里可以选择时间列，以及时间的显示方式

4.1.2.2 设置转换器

在这里可以新增虚拟列，将一个列的数据转换成另一个虚拟列，这里我们没有设置，直接跳过

4.1.2.3 设置过滤器

这里可以设置过滤器，对于某些数据可以不进行显示，这里我们也跳过

4.1.2.4 配置schema

在 Configure schema 步骤中，您可以配置将哪些维度和指标摄入到Druid中，这些正是数据在被Druid中摄取后出现的样子。由于我们的数据集非常小，关掉rollup、确认更改。

4.1.2.5 配置Partition

一旦对schema满意后，点击 Next 后进入 Partition 步骤，该步骤中可以调整数据如何划分为段文件的方式，因为我们数据量非常小，这里我们按照DAY进行分段

4.1.3 提交任务

4.1.3.1 发布数据

点击完成 Tune 步骤，进入到 Publish 步，在这里我们可以给我们的数据源命名，这里我们就命名为druid-sampled，

最低0.47元/天解锁文章

程序媛汤圆儿

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Apache Druid 数据摄取---本地数据和kafka流式数据

Apache Druid是一个集时间序列数据库、数据仓库和全文检索系统特点于一体的分析性数据平台。本文将带你简单了解Druid的特性，使用场景，技术特点和架构。这将有助于你选型数据存储方案，深入了解Druid存储，深入了解时间序列存储等。Apache Druid是一个高性能的实时分析型数据库。上篇文章，我们了解了Druid的加载方式，咱么主要说两种，一种是加载本地数据，一种是通过kafka加载流式数据。
复制链接

扫一扫

程序媛汤圆儿 CSDN认证博客专家 CSDN认证企业博客

码龄7年

191: 原创

106万+: 周排名

171万+: 总排名

5万+: 访问

: 等级

1960: 积分

11: 粉丝

20: 获赞

9: 评论

162: 收藏

私信

关注

热门文章

最新评论

全面解读Java的23种设计模式
敲键盘的小夜猫: 非常感谢分享！此篇博客深度剖析了主题，逻辑严谨，让读者一直保持感兴趣。语言清晰，例子贴切，使得复杂的概念变得易于理解。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
如何优雅的处理异常
浪子不顾及三毛: 优雅的呢
全面解读Java的23种设计模式
天蓝999: 可以的，我看的另一个神仙级Java设计模式实战，它结合SpringBoot，我彻底学会了Java设计模式及其应用，见：https://blog.csdn.net/feiying0canglang/article/details/131900171
Redis 如何实现库存扣减操作和防止被超卖？
qq_517351411: 脚本报错 attempt to compare number with nil
Java的值传递和引用传递
花开且富贵63: String不是引用传递？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。