![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Kafka
29DCH
In me the tiger sniffs the rose.
展开
-
整合Flume和Kafka完成实时数据采集
结合我的这三篇博客 Flume应用案例之两台服务器之间进行实时数据采集 和分布式消息队列Kafka简介及环境安装部署 Flume应用案例之监控一个文件实时采集新增的数据输出到控制台 把avro-memory-logger.conf改成avro-memory-kafka.conf 内容如下: avro-memory-kafka.sources = avro-source avro-memory-ka...原创 2018-10-19 15:37:28 · 483 阅读 · 0 评论 -
分布式消息队列Kafka简介及环境安装部署
最近在做一个基于Spark Streaming的实时流处理项目,之间用到了Kafka来作为消息队列,所以在这里总结一下Kafka的用法及原理. Kafka是由Apache软件基金会开发的一个分布式开源流处理平台,由Scala和Java编写。该项目的目标是为处理实时数据提供一个统一、高吞吐、低延迟的平台。其持久化层本质上是一个“按照分布式事务日志架构的大规模发布/订阅消息队列”,这使它作为企业级基础...原创 2018-10-17 17:07:18 · 420 阅读 · 0 评论 -
Kafka容错性测试
紧接我的上一篇博客 分布式消息队列Kafka简介及环境安装部署 这里对kafka的容错性进行测试 由图可以看出,此时有三个kafka进程,副本因子为3,leader是1号block,2,3号是从block,并且此时1,2,3号节点均存活 这个时候我们将3号block的进程强制结束掉 kill -9 20023 现在可见活的节点只有1,2了 这个时候把leader 1干掉 清晰可见,leade...原创 2018-10-17 20:52:04 · 718 阅读 · 0 评论 -
Spark Streaming整合Kafka的两种方式
Maven项目下的pom.xml文件加入如下依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kafka-0-8_2.11</artifac原创 2018-11-30 22:12:46 · 257 阅读 · 0 评论 -
Spark Streaming消费Kafka的数据进行统计
流处理平台: 这里是第四步的实现: Spark Streaming整合Kafka采用的是Receiver-based,另一种方式Direct Approach,稍作修改就行。 package spark import org.apache.spark.SparkConf import org.apache.spark.streaming.kafka.KafkaUtils import org....原创 2018-12-06 13:05:16 · 1219 阅读 · 0 评论