kafka集群搭建和参数详细解析

最新推荐文章于 2024-05-18 14:26:26 发布

Shaw_Bigdata

最新推荐文章于 2024-05-18 14:26:26 发布

阅读量638

点赞数 1

分类专栏：技术学习分享技术总结文章标签： kafka zookeeper jdk

本文链接：https://blog.csdn.net/u011192458/article/details/77409528

版权

技术学习分享同时被 2 个专栏收录

24 篇文章 2 订阅

订阅专栏

技术总结

8 篇文章 0 订阅

订阅专栏

Zookeeper集群搭建

Kafka集群是把状态保存在Zookeeper中的，首先要搭建Zookeeper集群。
1、软件环境
（3台服务器-我的测试）
192.168.0.10 master
192.168.0.11 slave1
192.168.0.12 salve2
1、Linux服务器一台、三台、五台、（2*n+1），Zookeeper集群的工作是超过半数才能对外提供服务，3台中超过两台超过半数，允许1台挂掉，是否可以用偶数，其实没必要。
如果有四台那么挂掉一台还剩下三台服务器，如果在挂掉一个就不行了，这里记住是超过半数。
2、Java jdk1.7 zookeeper是用java写的所以他的需要JAVA环境，java是运行在java虚拟机上的
3、Zookeeper的稳定版本Zookeeper 3.4.6版本

1、#下载软件

cd /home/chao

也可以通过资源下载zookeeper链接

(http://download.csdn.net/download/u011192458/9941115)

wget http://mirrors.cnnic.cn/apache/zookeeper/zookeeper-3.4.6/zookeeper-3.4.6.tar.gz

#解压软件
tar -zxvf zookeeper-3.4.6.tar.gz

#进入conf目录
/home/chao/zookeeper-3.4.6/conf
#查看
ll

-rw-rw-r--. 1 chao chao 535 2月 20 2014 configuration.xsl
-rw-rw-r--. 1 chao chao 2161 2月 20 2014 log4j.properties
-rw-rw-r--. 1 chao chao 1087 8月 19 10:08 zoo.cfg
-rw-rw-r--. 1 chao chao 922 2月 20 2014 zoo_sample.cfg

2、文件配置

#zoo_sample.cfg 这个文件是官方给我们的zookeeper的样板文件，给他复制一份命名为zoo.cfg，zoo.cfg是官方指定的文件命名规则。
cp zoo_sample.cfg zoo.cfg

#接下来配置文件zoo.cfg。三台服务器都需要配置,我这里是配置一台完成，后面scp过去另外两台
#配置zoo.cfg之前要创建dataDir目录以及dataLogDir目录

zookeeper-3.4.6]$ mkdir zkdata
zookeeper-3.4.6]$ mkdir zkdatalog

三台服务器的配置文件
tickTime=2000
initLimit=10
syncLimit=5
dataDir=/home/chao/zookeeper-3.4.6/zkdata
dataLogDir=/home/chao/zookeeper-3.4.6/zkdatalog
clientPort=2181
server.1=192.168.0.10:2888:3888
server.2=192.168.0.11:2888:3888
server.3=192.168.0.12:2888:3888

3、参数解析

#server.1 这个1是服务器的标识也可以是其他的数字，表示这个是第几号服务器，用来标识服务器，这个标识要写到快照目录下面myid文件里

#192.168.7.10为集群里的IP地址，第一个端口是master和slave之间的通信端口，默认是2888，第二个端口是leader选举的端口，集群刚启动的时候选举或eader挂掉之后进行新的选举的端口默认是3888

#tickTime：
这个时间是作为 Zookeeper 服务器之间或客户端与服务器之间维持心跳的时间间隔，也就是每个 tickTime 时间就会发送一个心跳。

#initLimit：
这个配置项是用来配置 Zookeeper 接受客户端（这里所说的客户端不是用户连接 Zookeeper 服务器的客户端，而是 Zookeeper 服务器集群中连接到 Leader 的 Follower 服务器）初始化连接时最长能忍受多少个心跳时间间隔数。当已经超过 5个心跳的时间（也就是 tickTime）长度后 Zookeeper 服务器还没有收到客户端的返回信息，那么表明这个客户端连接失败。总的时间长度就是 5*2000=10 秒

#syncLimit：
这个配置项标识 Leader 与Follower 之间发送消息，请求和应答时间长度，最长不能超过多少个 tickTime 的时间长度，总的时间长度就是5*2000=10秒

#dataDir：
快照日志的存储路径

#dataLogDir：
事物日志的存储路径，如果不配置这个那么事物日志会默认存储到dataDir制定的目录，这样会严重影响zk的性能，当zk吞吐量较大的时候，产生的事物日志、快照日志太多

#clientPort：
这个端口就是客户端连接 Zookeeper 服务器的端口，Zookeeper 会监听这个端口，接受客户端的访问请求。修改他的端口改大点

#配置完成，需要将zookeeper复制到其它节点
scp -r zookeeper-3.4.6 chao@slave1:/home/chao/
scp -r zookeeper-3.4.6 chao@slave2:/home/chao/

#创建myid文件（myid）是主要标识,上面提及过可以回头去看,里面是值必须同server.id中的id值一致

#server1
echo "1" > /opt/zookeeper/zkdata/myid

#server2
echo "2" > /opt/zookeeper/zkdata/myid

#server3
echo "3" > /opt/zookeeper/zkdata/myid

4、重要配置说明

1、myid文件和server.myid 在快照目录下存放的标识本台服务器的文件，他是整个zk集群用来发现彼此的一个重要标识。

2、zoo.cfg 文件是zookeeper配置文件在conf目录里。

3、log4j.properties文件是zk的日志输出文件在conf目录里用java写的程序基本上有个共同点日志都用log4j(此处采用默认)，来进行管理。

4、zkEnv.sh和zkServer.sh文件

zkServer.sh 主的管理程序文件
zkEnv.sh 是主要配置，zookeeper集群启动时配置环境变量的文件
5、还有一个需要注意
ZooKeeper server will not remove old snapshots and log files when using the default configuration (see autopurge below), this is the responsibility of the operator
zookeeper不会主动的清除旧的快照和日志文件，这个是操作者的责任。

#例如(此处提供定时脚本) 建议原因:对于运维人员来说，将日志清理工作独立出来，便于统一管理也更可控。毕竟zk自带的一些工具并不怎么给力。
#!/bin/bash

#snapshot file dir
dataDir=/home/chao/zookeeper-3.4.6/zkdata/version-2
#tran log dir
dataLogDir=/home/chao/zookeeper-3.4.6/zkdatalog/version-2

#Leave 66 files
count=66
count=$[$count+1]
ls -t $dataLogDir/log.* | tail -n +$count | xargs rm -f
ls -t $dataDir/snapshot.* | tail -n +$count | xargs rm -f

#以上这个脚本定义了删除对应两个目录中的文件，保留最新的66个文件，可以将他写到crontab中，设置为每天凌晨2点执行一次就可以了。

#zk log dir del the zookeeper log
#logDir=
#ls -t $logDir/zookeeper.log.* | tail -n +$count | xargs rm -f

5、启动服务并查看

#进入到Zookeeper的bin目录下
cd /home/chao/zookeeper-3.4.6/bin
#启动服务（3台都需要操作）
./zkServer.sh start
#检查服务器状态
(提醒,如果启动或者status的时候启动报错running，则需要查看服务端端口是否有被暂用情况2182和2888,3888或者目录zddata,zddatalog是否已经创建或者防火墙是否关闭)
./zkServer.sh status

JMX enabled by default
Using config: /opt/zookeeper/zookeeper-3.4.6/bin/../conf/zoo.cfg #配置文件
Mode: follower #他是否为领导

#zk集群一般只有一个leader，多个follower，主一般是相应客户端的读写请求，而从主同步数据，当主挂掉之后就会从follower里投票选举一个leader出来

#执行命令jps
20348 Jps
4233 QuorumPeerMain

#启动成功，zookeeper搭建成功

Kafka集群搭建
1、软件环境
1、linux一台或多台，大于等于2
2、已经搭建好的zookeeper集群
3、软件版本kafka_2.11-0.9.0.1.tgz
2、创建目录并下载安装软件

1、#下载软件

(http://download.csdn.net/download/u011192458/9941118)下载kafka资源链接http://download.csdn.net/download/u011192458/9941118

wget http://apache.opencas.org/kafka/0.9.0.1/kafka_2.11-0.9.0.1.tgz

#解压软件
tar -zxvf kafka_2.11-0.9.0.1.tgz

cd /home/chao/kafka_2.11-0.9.0.1/config/

主要关注：server.properties 这个文件即可，我们可以发现在目录下：

有很多文件，这里可以发现有Zookeeper文件，我们可以根据Kafka内带的zk集群来启动，但是建议使用独立的zk集群

2、修改配置文件(修改配置文件之前先创建kafka日志存放目录)

cd /home/chao/kafka_2.11-0.9.0.1
mkdir kafkalogs

配置文件server参数解析,此处只是解析并不是修改配置
broker.id=0 #当前机器在集群中的唯一标识，和zookeeper的myid性质一样
port=19092 #当前kafka对外提供服务的端口默认是9092
host.name=192.168.0.10 #这个参数默认是关闭的，在0.8.1有个bug，DNS解析问题，失败率的问题。
num.network.threads=3 #这个是borker进行网络处理的线程数
num.io.threads=8 #这个是borker进行I/O处理的线程数
log.dirs=/home/chao/kafka_2.11-0.9.0.1/kafkalogs/ #消息存放的目录，这个目录可以配置为“，”逗号分割的表达式，上面的num.io.threads要大于这个目录的个数这个目录，如果配置多个目录，新创建的topic他把消息持久化的地方是，当前以逗号分割的目录中，那个分区数最少就放那一个
socket.send.buffer.bytes=102400 #发送缓冲区buffer大小，数据不是一下子就发送的，先回存储到缓冲区了到达一定的大小后在发送，能提高性能
socket.receive.buffer.bytes=102400 #kafka接收缓冲区大小，当数据到达一定大小后在序列化到磁盘
socket.request.max.bytes=104857600 #这个参数是向kafka请求消息或者向kafka发送消息的请请求的最大数，这个值不能超过java的堆栈大小
num.partitions=1 #默认的分区数，一个topic默认1个分区数
log.retention.hours=168 #默认消息的最大持久化时间，168小时，7天
message.max.byte=5242880 #消息保存的最大值5M
default.replication.factor=2 #kafka保存消息的副本数，如果一个副本失效了，另一个还可以继续提供服务
replica.fetch.max.bytes=5242880 #取消息的最大直接数
log.segment.bytes=1073741824 #这个参数是：因为kafka的消息是以追加的形式落地到文件，当超过这个值的时候，kafka会新起一个文件
log.retention.check.interval.ms=300000 #每隔300000毫秒去检查上面配置的log失效时间（log.retention.hours=168 ），到目录查看是否有过期的消息如果有，删除
log.cleaner.enable=false #是否启用log压缩，一般不用启用，启用的话可以提高性能
zookeeper.connect=192.168.0.10:2181,192.168.0.11:2181,192.168.0.12:2181 #设置zookeeper的连接端口

上面是参数的解释，实际的修改项为：

broker.id=0 每台服务器的broker.id都不能相同可以设置每台节点

#hostname
host.name=192.168.7.100

#在log.retention.hours=168 下面新增下面三项
message.max.byte=5242880
default.replication.factor=2
replica.fetch.max.bytes=5242880

#设置zookeeper的连接端口
zookeeper.connect=192.168.0.10:2181,192.168.0.11:2181,192.168.0.11:2181

所有参数配置完成后,需要推送到各个节点
scp -r kafka_2.11-0.9.0.1 chao@slave1:/home/chao/
scp -r kafka_2.11-0.9.0.1 chao@slave2:/home/chao/

推送到各个节点之后一定要修改broker.id,各个节点都是不同

3、启动kafka集群（三台节点都要启动）

cd /home/chao/kafka_2.11-0.9.0.1/bin
./kafka-server-start.sh -daemon ../config/server.properties

4、创建Topic来验证是否创建成功

./kafka-topics.sh --create --zookeeper 192.168.0.10:2181 --replication-factor 1 --partitions 1 --topic chao

解释
--replication-factor #复制一份
--partitions 1 #创建1个分区
--topic #主题为chao

#在一台服务器上创建一个发布者'
#创建一个producer发布者
./kafka-console-producer.sh --broker-list 192.168.0.10:9092 --topic chao

#'在一台服务器上创建一个订阅者
./kafka-console-consumer.sh --zookeeper localhost:2181 --topic chao --from-beginning

测试（在发布者那里发布消息看看订阅者那里是否能正常收到~）

#kafka集群搭建成功

kafka基本命令
./kafka-topics.sh --list --zookeeper localhost:2181
#就会显示我们创建的所有topic

查看topic状态
./kafka-topics.sh --describe --zookeeper localhost:2181 --topic chao
#下面是显示信息
Topic:ssports PartitionCount:1 ReplicationFactor:2 Configs:
Topic: chao Partition: 0 Leader: 1 Replicas: 0,1 Isr: 1
#分区为为1 复制因子为他的 chao 的分区为0
#Replicas: 0,1 复制的为0，1

5、其他说明标注

5.1、日志说明

默认kafka的日志是保存在/opt/kafka/kafka_2.10-0.9.0.0/logs目录下的，这里说几个需要注意的日志

server.log #kafka的运行日志
state-change.log #kafka他是用zookeeper来保存状态，所以他可能会进行切换，切换的日志就保存在这里

controller.log #kafka选择一个节点作为“controller”,当发现有节点down掉的时候它负责在游泳分区的所有节点中选择新的leader,这使得Kafka可以批量的高效的管理所有分区节点的主从关系。如果controller down掉了，活着的节点中的一个会备切换为新的controller.