Kafka
yield-bytes
Java高级后端、大数据开发、Python高级开发、数据分析与挖掘
展开
-
分析Kafka offset管理与Spark Streaming背压速率(待更)
1、背压问题涉及到自动调整ss消费消息的速率,以便让计算处理能力跟接收消息的能力匹配2、手动管理offset的文章为何要管理offset三种场合都需要保证重启ss进程后,能够接着上次消费的位置进行消费...原创 2020-03-19 22:21:45 · 565 阅读 · 0 评论 -
基于PySpark整合Spark Streaming与Kafka
本文内容主要给出基于PySpark程序,整合Spark Streaming和Kafka,实现实时消费和处理topic消息,为Python开发大数据实时计算项目提供基本参考。(后续将陆续给出基于Scala开发大数据实时计算项目的文章)1 程序环境准备:虚拟机A:启动单实例kafka服务虚拟机B:运行PySpark程序在VM A,程序环境要求安装jdk1.8以上以及与kafka匹配版本的s...原创 2020-03-06 23:43:11 · 8768 阅读 · 9 评论 -
flume集群高可用连接kafka集群
文章目录前言1、在kafka集群上创建相应的topic2、单节点配置flume的agent sink为sink2.1 配置flume 文件2.2 测试数据消费情况3 、flume NG集群连接kafka集群前言 在前面blog文章中:《在hadoopHA节点上部署flume高可用组件》和《在hadoopHA节点上部署kafka集群组件》,已经实现大数据实时数据流传输两大组件的部署和测试,本文...原创 2019-12-05 21:00:22 · 1736 阅读 · 0 评论 -
深入理解kafka
文章目录前言1、kafka集群架构图2、kafka 高性能读写的设计2.1、利用read-ahead 和 write-behind提升写性能2.2、使用pagecache缓存程序数据提升读写性能2.3 通过sendfile(零拷贝机制)提高消费者端的读吞吐量3、kafka的repilcas副本机制3.1 主分区的副本3.2 leade如何管理follower节点3.3 Replica如何均匀分布到...原创 2019-12-01 12:16:41 · 1294 阅读 · 0 评论 -
在hadoopHA节点上部署kafka集群组件
文章目录前言1、Kafka的基本介绍1.1 什么是kafka1.2 kafka 应用场景1.3 kafka相关术语2、kafka 单点部署与测试2.1 配置文件2.2 启动kafka进程2.3 测试topic3、kafka集群部署与测试3.1 配置server.properties3.2 集群测试3.3 在zk上查看集群情况4、kafka的架构原理4.1 Kafka集群的leader选举前言在...原创 2019-11-28 22:02:03 · 508 阅读 · 0 评论