kafka
文章平均质量分 50
NoBugPro
这个作者很懒,什么都没留下…
展开
-
SparkStreaming读取kafka数据的两种方式
ReceiveReceive是使用的高级API,需要消费者连接Zookeeper来读取数据。是由Zookeeper来维护偏移量,不用我们来手动维护,这样的话就比较简单一些,减少了代码量。但是天下没有免费的午餐,它也有很多缺点:1.导致丢失数据。它是由Executor内的Receive来拉取数据并存放在内存中,再由Driver端提交的job来处理数据。这样的话,如果底层节点出现错误,就会发生数...原创 2018-11-18 21:32:31 · 8664 阅读 · 2 评论 -
Kafka直连存储HBase
在之前介绍了Kafka与SparkStreaming交互的两种方式,我提到了公司采用的是Direct方式,这次我向大家分享一下将偏移量存储在HBase中。代码如下:package kafka1import kafka.common.TopicAndPartitionimport kafka.message.MessageAndMetadataimport kafka.serializer...原创 2018-11-18 21:44:08 · 1337 阅读 · 0 评论 -
Kafka直连存储ZK
这次的博客向大家介绍一下将偏移量存储在Zookeeper中。我在注明书写逻辑的地方,可以在那里对RDD进行算子操作。package kafka1import kafka.common.TopicAndPartitionimport kafka.message. MessageAndMetadataimport kafka.serializer.StringDecoderimport...原创 2018-11-18 22:09:44 · 1405 阅读 · 0 评论 -
Kafka直连方式存储MySQL
记得在之前写了一篇是MySQL基础使用的,这次就用MySQL来保存Direct方式的偏移量。代码如下:package kafka1import kafka.common.TopicAndPartitionimport kafka.message.MessageAndMetadataimport kafka.serializer.StringDecoderimport org.apach...原创 2018-11-18 22:15:42 · 8349 阅读 · 0 评论 -
Kafka基础了解一下
Kafka简介Kafka是一个分布式的流式信息处理平台。通俗的来说,它可以被理解为是一个帮助我们临时存储消息的插件,也就是消息中间件或者消息队列。而它适用于什什么时候呢? 试想,当我们获取到的数据量特别大,而进行计算的集群无法及时进行处理,会造成数据堆积,对集群的影响很大,甚至可能造成数据的丢失。但是,如果我们先将数据存放在kafka服务器集群上,这样的话,计算多少就拉取多少数据,不会造成数据...原创 2018-11-17 17:32:48 · 263 阅读 · 0 评论 -
Kafka之消费者分区分配策略
前言之前的一篇博客写的是Kafka基础了解一下(附上超链接,可以点进去看看)对Kafka简单介绍了一下。既然我们知道消费者组会协调去消费Topic下的partition,那么它是如何去协调的,是不是也要去了解了解。简介Kafka的分区实际上继承了一个接口AbstractPartitionAssignor,而这个接口下有两个实现的类,实现了RoundRobinAssignor和RangeAss...原创 2018-11-17 21:20:28 · 1866 阅读 · 1 评论 -
Flume读取文件传输到Kafka全流程
前期工作先部署Kafka集群和Flume。Flume在解压后只需要在flume-env.sh中修改jdk路径就行了。而Kafka集群相比较下就有点复杂了,步骤如下:解压kafka的压缩包。vi /config/server.properties,在其中进行下面4,5,6步broker.id=0 ,这个是每台机器的标识,不可重复。delete.topic.enable=true,这...原创 2018-11-30 19:29:42 · 7346 阅读 · 3 评论