0x01: kafka版本的选择
研究kafka源码之前,建议可以先了解其各个版本的演进背景以及优缺点。
目前主要的几个大版本如下:
各版本介绍:
- kafka基本能用消息队列的最低版本为0.7,但0.7版本当时还没有副本机制。
- 从0.8版本开始引进了副本机制,而且对于分布式高可靠性做了非常大的升级,算是当时比较稳定的一个版本,但使用的还是老的API,而且还是需要从ZK上获取元数据信息,以及存储offset偏移量,缺点(bug)也比较多,0.8的版本其实在国内很多公司还在使用(建议起码升级到0.10+的版本)
- 0.9版本增加了安全认证/权限认证,同时使用了JAVA重写了新版本消费者API(但这块BUG还是比较多),且从0.9开始offset不再存储在zookeeper中,而是以_consumer_offsets topic保存在自身broker上(我自己就是高性能、高并发干嘛不放自己这里?)
- 0.10.0.0版本算是一个里程碑的大版本,因为里面引入的Kafka Streams(开始布局流式计算的战略目标了,虽然后面还是干不过Flink),正式升级为分布式流处理平台,从这个大版本开始Comsumer端也比较稳定了
- 后续的版本0.11,1.X,2.x
基于是对Kafka优秀代码设计的学习,我们可以选择0.10.x版本进行源码的分析与学习
目前0.10 大版本包含两个小版本:0.10.1 和 0.10.2,这里选择0.10.1
0x02: 基础环境安装
- JDK 1.8环境
- scala 2.10.6 (服务端部分使用的还是scala编写的)
下载地址:
https://www.scala-lang.org/download/all.html
- idea 安装scala插件
- 安装Gradle
kafka仓库管理采用的是gradle而不是maven
下载地址: Gradle | Releases
- github下载kafka 0.10.1源码
Branches · apache/kafka · GitHub
0x03: 导入项目
源码下载下来后,可以先在项目对应的目录用cmd执行 gradle idea 进行编译:
然后使用idea选择gradle并设置Gradle环境信息进行项目导入
如果编译时间过长可以修改build.gradle 切换数据源
0x04: 启动
配置信息
如果需要kafka在运行时输出日志信息,需要将log4j配置,复制到对应的模块如core、clients等模块
server.properties配置文件也需要根据你运行的环境进行相应的配置
注意:需要先启动好zookeeper,并将其中zk的连接信息修改为对应的服务信息
如: log.dirs=D:\\Workspace\\source_learn\\log
zookeeper.connect=localhost:2181
启动参数
服务端启动参数如下:
配置JMX_PORT是为了方便搜集Kafka自身的Metrics数据。
第一次启动编译的时间大概2分钟左右,部分启动日志如下:
0x05: kafka编译过程问题
org.gradle.api.artifacts.ResolveException: Could not resolve all dependencies for configuration ':classpath'.
原因是Gradle版本过高问题,降低版本到4.8以下就可以解决