Druid学习笔记（4）数据摄入总结

最新推荐文章于 2024-09-05 10:54:41 发布

铁猴

最新推荐文章于 2024-09-05 10:54:41 发布

阅读量6k

点赞数

分类专栏：大数据存储与分析文章标签： Druid 数据摄入 Tranquilit Kafka Push

本文链接：https://blog.csdn.net/eric_sunah/article/details/78794986

版权

本文详细介绍了Druid的数据摄入，包括实时数据的Pull（Realtime Node）和Push（Tranquility Server、Tranquility Kafka）方式，以及离线数据摄入的静态文件和HDFS文件摄入。重点讲解了Tranquility Server和Kafka的配置步骤，以及数据分片和高基数维度优化的注意事项。

摘要由CSDN通过智能技术生成

1. 概述

Druid的数据摄入主要包括两大类：
1. 实时输入摄入：包括Pull,Push两种
- Pull:需要启动一个RealtimeNode节点，通过不同的Firehose摄取不同种类的数据源。
- Push:需要启动Tranquility或是Kafka索引服务。通过HTTP调用的方式进行数据摄入
2. 离线数据摄入:可以通过Realtime节点摄入，也可以通过索引节点启动任务摄入

本文演示环节主要基于上一章部署的集群来进行

2. 实时数据摄入

2.1 Pull

由于Realtime Node 没有提供高可用，可伸缩等特性，对于比较重要的场景推荐使用 Tranquility Server or 或是Tranquility Kafka索引服务

2.2 Push

Indexing service在前文已经介绍过了，Tranquility 是一个Scala库，它通过索引服务实现数据实时的摄入。它之所以存在，是因为Indexing service API属于低层面的。Tranquility是对索引服务进行抽象封装，对使用者屏蔽了创建任务，处理分区、复制、服务发现和shema rollover等环节。

通过Tranquility 的数据摄入，可以分为两种方式

Tranquility Server：发送方可以通过Tranquility Server 提供的HTTP接口，向Druid发送数据。
Tranquility Kafka：发送发可以先将数据发送到Kafka,Tranquility Kafka会根据配置从Kafka获取数据，并写到Druid中。

2.2.1 Tranquility Server配置

配置流程如下
1. 开启Tranquility Server，在数据节点上编辑conf/supervise/data-with-query.conf 文件，将Tranquility Server注释放开

# Uncomment to use Tranquility Server                                                                                                                                                          
!p95 tranquility-server bin/tranquility server -configFile conf/tranquility/server.json

拷贝quick里面的server.json

root@native-lufanfeng-4-5-24-140:~/imply-2.3.8# cp conf-quickstart/tranquility/server.json conf/tranquility/

启动服务

root@native-lufanfeng-4-5-24-140:~/imply-2.3.8# bin/supervise -c conf/supervise/data-with-query.conf

启动信息如下：

[Fri Dec  8 15:41:39 2017] Running command[tranquility-server], logging to[/root/imply-2.3.8/var/sv/tranquility-server.log]: bin/tranquility server -configFile conf/tranquility/server.json

发送数据

bin/generate-example-metrics | curl -XPOST -H'Content-Type: application/json' --data-binary @- http://localhost:8200/v1/post/tutorial-tranquility-server

如果成功会打印出,表名产生了25条数据到druid里

{"result":{"received":25,"sent":25}}

查询数据

root@native-lufanfeng-4-5-24-140:~/imply-2.3.8/bin#./plyql -h localhost -p 8082 -q "SELECT server, SUM("count") AS "events", COUNT(*) AS "rows" FROM "tutorial-tranquility-server" GROUP BY server;"

┌──────────────────┬────────┬──────┐
│ server           │ events │ rows │
├──────────────────┼────────┼──────┤
│ www1.example.com │ 1      │ 1    │
│ www2.example.com │ 5      │ 4    │
│ www3.example.com │