Druid使用Kafka Indexing Service方式push数据以及实时节点pull数据步骤

最新推荐文章于 2021-09-21 19:26:09 发布

王树民

最新推荐文章于 2021-09-21 19:26:09 发布

阅读量1k

点赞数

分类专栏： Druid

Druid 专栏收录该内容

80 篇文章 1 订阅

订阅专栏

2018年05月27日 13:44:07

阅读数：77

Druid中从kafka摄入数据，存在两种方式，一种是pull，需要依赖实时节点，一种是push，需要依赖Kafka Indexing Service（kafka索引服务）

注：在0.9.1.1版本前使用Tranquility-Kafka组件接入实时数据，由于存在时间窗口，即在时间窗口内的数据会被提交给Firehose，时间窗口外的数据则会被丢弃；如果Tranquility-Kafka临时下线，会导致Kafka中数据“过期”从而被丢弃，无法保证数据完整性，同时这种“copy service”的使用模式不仅占用大量CPU与内存，又不满足原子操作，所以在0.9.1.1版本后，建议使用Druid的新特性Kafka Indexing Service，Druid内部使用Kafka高级Consumer API保证exactly-once semantics，尽最大可能保证数据完整性。

步骤一：下载Kafka Indexing Service扩展，将扩张加入到druid目录下的extensions目录下。

步骤二：将扩展绑定在middlemanager以及overlord上，在开发中，实际配置方案为直接配置/opt/druid/conf/druid/_common/common.runtime.properties，在druid.extensions.loadList中加入Kafka Indexing Service，如图：

，如果不进行配置，无法使用kafka索引服务

步骤三：在druid目录下的var目录下新建tmp目录作为java.io.tmpdir（jvm.config配置文件）目录。如果目录不存在。Druid报错

步骤四：编写Json配置文件：示例如下

步骤五：确认workerThreads配置为（taskCount * replicas +1）；

步骤六：调整配置项useEarliestOffset为true，否则druid只会读取最新数据，不会从beginning开始读取数据。

实时节点使用步骤：

注：使用tranquility为0.8.2版本，在使用过程中尝试使用0.8.0版本以及0.8.1版本均为成功，具体原因不明，下载地址：http://static.druid.io/tranquility/releases/tranquility-distribution-0.8.2.tgz

步骤一：将下载好的tranquility-distribution-0.8.2.tgz解压后的目录移动到Druid的home目录下。

步骤二：编辑配置文件，示例如下：

步骤三：进入到目录下使用如下命令：bin/tranquility kafka -configFile <配置文件路径>进行启动

步骤四：使用kafka生产消息，注：时间戳列采用yyyy-MM-ddTHH:mm:ssZ格式，否则数据无法解析，应该可以配置，但未找到配置点。

索引服务与实时节点比较：

在Druid重启时，索引服务不会丢数据，但是对于实时节点，如果重启太慢，数据超过了时间窗口以及延时窗口，这部分数据会被丢弃。

索引服务实际是在指定时间内处理数据，然后将数据积压，可以配置提交时间，到达提交时间时进行提交。

索引服务在Druid重启后，不会重读消费过的数据，也就是offset不会从begining开始，数据不会重叠。

索引服务出现在tranquility服务之后，实际是对实时节点的一个补充，但是索引服务只在0.9.1.1版本之后进行支持

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Druid使用Kafka Indexing Service方式push数据以及实时节点pull数据步骤

2018年05月27日 13:44:07阅读数：77 Druid中从kafka摄入数据，存在两种方式，一种是pull，需要依赖实时节点，一种是push，需要依赖Kafka Indexing Service（kafka索引服务）注：在0.9.1.1版本前使用Tranquility-Kafka组件接入实时数据，由于存在时间窗口，即在时间窗口内的数据会被提交给Firehose，时间窗口外的数...
复制链接

扫一扫

专栏目录

王树民 CSDN认证博客专家 CSDN认证企业博客

码龄8年

561: 原创

2万+: 周排名

123万+: 总排名

490万+: 访问

: 等级

3万+: 积分

906: 粉丝

721: 获赞

371: 评论

3150: 收藏

私信

关注

热门文章

分类专栏

最新评论

出现 org.springframework.beans.factory.BeanCreationException 异常的原因及解决方法
m0_55165974: 也可能是java版本不对，看下是否匹配
druid集群的安装和验证
卡林神不是猫: 王老师您好！请问拷贝Hadoop的jar包去哪里拷贝呢？
地图瓦片编号与经纬度的换算关系
weixin_45506583: 具体怎么算呢？已知列号、行号、缩放等级，怎么转换成两个经纬度呢
byte为什么是-128-127
做而论道_CS: 由补码换算到十进制数，是极其简单的事！你只需记住：【补码首位的权，是负数】。一般的八位二进制数，各个位的权是：　　128、64、32、16、8、4、2、1。如果是八位的补码，各个位的权则是：　－128、64、32、16、8、4、2、1。例如，有一个补码是：1110 0001，它代表的十进制就是：－128 + 64 + 32 + 1 = －31。如果，换另一个补码：0110 0001，它代表的十进制数是：0 + 64 + 32 + 1 = ＋97。仅仅使用【进制转换】，不就完事了嘛？原码反码取反加一？根本就用不着啊。想都不用想！
byte为什么是-128-127
做而论道_CS: 补码的来历，仅仅是在于：你如何处理进位。补码，并不是来自：　机器数真值符号位原码反码正数三码相同负数取反加一符号位不变模同余。。。计算机专家，如果小学毕了业，就不会费这么大的事来解释补码！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。