Kafka集群搭建

接上一篇的理论,这一篇上实操,这里说一下,Kafka是依赖Zookeeper的,虽然kafka软件包自带zookeeper,不过我还是觉得分开会好管理

环境:
CentOS7.3
test1:192.168.1.222
test2:192.168.1.223
test3:192.168.1.224

1、Linux服务器一台、三台、五台、(2*n+1),Zookeeper集群的工作是超过半数才能对外提供服务,3台中超过两台超过半数,允许1台挂掉 ,是否可以用偶数,其实没必要。
如果有四台那么挂掉一台还剩下三台服务器,如果在挂掉一个就不行了,这里记住是超过半数。
2、Java jdk1.7 zookeeper是用java写的所以他的需要JAVA环境,java是运行在java虚拟机上的
3、Zookeeper的稳定版本Zookeeper 3.4.12版

一、 配置java环境 (三台机器都要) 这里用test1为例子

[root@test1~]#wget http://download.oracle.com/otn-pub/java/jdk/8u191-b12/2787e4a523244c269598db4e85c51e0c/jdk-8u191-linux-x64.tar.gz
[root@test1 tmp]# tar  -zxvf jdk-8u191-linux-x64.tar.gz
[root@test1 tmp]# mkdir  /usr/local/java
[root@test1 tmp]# mv jdk1.8.0_191 /usr/local/java/

修改环境变量,在末尾加上这些

[root@test1 ~]# vim /etc/profile
unset i
unset -f pathmunge
export JAVA_HOME=/usr/local/java/jdk1.8.0_191
export CLASSPATH=.:JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin

在这里插入图片描述

[root@test1 ]# source /etc/profile  #使配置生效	
[root@test1 java]# java -version  #查看是否生效

在这里插入图片描述

二、 配置&安装Zookeeper (三台都要)
1、首先要注意在生产环境中目录结构要定义好,防止在项目过多的时候找不到所需的项目
#我统一放在opt下
#创建zookeeper项目目录

[root@test1 ~]# cd /opt/
[root@test1 opt]# mkdir zookeeper   #项目目录
[root@test1 opt]#cd /zookeeper   #进入目录
[root@test1 zookeeper]# mkdir zkdata   #创建存放快照目录
[root@test1 zookeeper]# mkdir zkdatalog   #创建存放事务日志

2、下载Zookeeper 并解压

[root@test1 ~]# cd /opt/zookeeper/
[root@test1zookeeper]#wget http://mirror.bit.edu.cn/apache/zookeeper/stable/zookeeper-3.4.12.tar.gz
[root@test1 zookeeper]# tar -zxvf zookeeper-3.4.12.tar.gz

3、修改配置文件
进入到解压好的目录里面的conf目录中,查看

[root@test1 zookeeper-3.4.12]# cd conf/
[root@test1 conf]# ll
总用量 12
-rw-rw-r-- 1 test test  535 3月  27 2018 configuration.xsl
-rw-rw-r-- 1 test test 2161 3月  27 2018 log4j.properties
-rw-rw-r-- 1 test test  922 3月  27 2018 zoo_sample.cfg


[root@test1 conf]# cp zoo_sample.cfg  zoo.cfg         

#zoo_sample.cfg 这个文件是官方给我们的zookeeper的样板文件,给他复制一份命名为zoo.cfg,zoo.cfg是官方指定的文件命名规则。

在这里插入图片描述

3台服务器的配置文件需要更改的地方:

[root@test1 conf]# vim zoo.cfg
tickTime=2000
initLimit=10
syncLimit=5
dataDir=/opt/zookeeper/zkdata
dataLogDir=/opt/zookeeper/zkdatalog
clientPort=12181
server.1=192.168.1.222:12888:13888
server.2=192.168.1.223:12888:13888
server.3=192.168.1.224:12888:13888

在这里插入图片描述

配置文件解释:
#tickTime:
这个时间是作为 Zookeeper 服务器之间或客户端与服务器之间维持心跳的时间间隔,也就是每个 tickTime 时间就会发送一个心跳。
#initLimit:
这个配置项是用来配置 Zookeeper 接受客户端(这里所说的客户端不是用户连接 Zookeeper 服务器的客户端,而是 Zookeeper 服务器集群中连接到 Leader 的 Follower 服务器)初始化连接时最长能忍受多少个心跳时间间隔数。当已经超过 5个心跳的时间(也就是 tickTime)长度后 Zookeeper 服务器还没有收到客户端的返回信息,那么表明这个客户端连接失败。总的时间长度就是 52000=10 秒
#syncLimit:
这个配置项标识 Leader 与Follower 之间发送消息,请求和应答时间长度,最长不能超过多少个 tickTime 的时间长度,总的时间长度就是5
2000=10秒
#dataDir:
快照日志的存储路径
#dataLogDir:
事物日志的存储路径,如果不配置这个那么事物日志会默认存储到dataDir制定的目录,这样会严重影响zk的性能,当zk吞吐量较大的时候,产生的事物日志、快照日志太多
#clientPort:
这个端口就是客户端连接 Zookeeper 服务器的端口,Zookeeper 会监听这个端口,接受客户端的访问请求。修改他的端口改大点

#server.1 这个1是服务器的标识也可以是其他的数字, 表示这个是第几号服务器,用来标识服务器,这个标识要写到快照目录下面myid文件里
#192.168.7.107为集群里的IP地址,第一个端口是master和slave之间的通信端口,默认是2888,第二个端口是leader选举的端口,集群刚启动的时候选举或者leader挂掉之后进行新的选举的端口默认是3888

把配置文件发给其他的机器

[root@test1 conf]# scp zoo.cfg  192.168.1.223:/opt/zookeeper/zookeeper-3.4.12/conf/
[root@test1 conf]# scp zoo.cfg  192.168.1.224:/opt/zookeeper/zookeeper-3.4.12/conf/

4、创建myid文件 (三台机器输入的编号不一样)

[root@test1 ~]# echo "1" > /opt/zookeeper/zkdata/myid
[root@test2 ~]# echo "2" > /opt/zookeeper/zkdata/myid
[root@test3 ~]# echo "3" > /opt/zookeeper/zkdata/myid

重要配置说明:
1、myid文件和server.myid 在快照目录下存放的标识本台服务器的文件,他是整个zk集群用来发现彼此的一个重要标识。
2、zoo.cfg 文件是zookeeper配置文件 在conf目录里。
3、log4j.properties文件是zk的日志输出文件 在conf目录里用java写的程序基本上有个共同点日志都用log4j,来进行管理。
4、zkEnv.sh和zkServer.sh文件
zkServer.sh 主的管理程序文件
zkEnv.sh 是主要配置,zookeeper集群启动时配置环境变量的文件

5、还有一个需要注意
ZooKeeper server will not remove old snapshots and log files when using the default configuration (see autopurge below), this is the responsibility of the operator
zookeeper不会主动的清除旧的快照和日志文件,这个是操作者的责任。

#!/bin/bash 
 
#snapshot file dir 
dataDir=/opt/zookeeper/zkdata/version-2
#tran log dir 
dataLogDir=/opt/zookeeper/zkdatalog/version-2

#Leave 66 files 
count=66 
count=$[$count+1] 
ls -t $dataLogDir/log.* | tail -n +$count | xargs rm -f 
ls -t $dataDir/snapshot.* | tail -n +$count | xargs rm -f 

#以上这个脚本定义了删除对应两个目录中的文件,保留最新的66个文件,可以将他写到crontab中,设置为每天凌晨2点执行一次就可以了。

其他方法:
第二种:使用ZK的工具类PurgeTxnLog,它的实现了一种简单的历史文件清理策略,可以在这里看一下他的使用方法 http://zookeeper.apache.org/doc/r3.4.6/zookeeperAdmin.html
第三种:对于上面这个执行,ZK自己已经写好了脚本,在bin/zkCleanup.sh中,所以直接使用这个脚本也是可以执行清理工作的。
第四种:从3.4.0开始,zookeeper提供了自动清理snapshot和事务日志的功能,通过配置 autopurge.snapRetainCount 和 autopurge.purgeInterval 这两个参数能够实现定时清理了。这两个参数都是在zoo.cfg中配置的:
autopurge.purgeInterval 这个参数指定了清理频率,单位是小时,需要填写一个1或更大的整数,默认是0,表示不开启自己清理功能。
autopurge.snapRetainCount 这个参数和上面的参数搭配使用,这个参数指定了需要保留的文件数目。默认是保留3个。

推荐使用第一种方法,对于运维人员来说,将日志清理工作独立出来,便于统一管理也更可控。毕竟zk自带的一些工具并不怎么给力。

5、启动服务

[root@test1 zkdata]# cd /opt/zookeeper/zookeeper-3.4.12/bin/  #进入命令目录

[root@test1 bin]# ./zkServer.sh start     #启动服务(3台都需要操作)

在这里插入图片描述

6、三个都启动后检查服务状态

[root@test1 bin]# ./zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /opt/zookeeper/zookeeper-3.4.12/bin/../conf/zoo.cfg
Mode: follower    #是否为领导

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
zk集群一般只有一个leader,多个follower,主一般是相应客户端的读写请求,而从主同步数据,当主挂掉之后就会从follower里投票选举一个leader出来。

可以用“jps”查看zk的进程,这个是zk的整个工程的main

[root@test1 bin]# jps
27269 QuorumPeerMain
27367 Jps
20925 Bootstrap

三、 Kafka集群搭建
软件环境:
linux一台或多台,大于等于2
已经搭建好的zookeeper集群
软件版本kafka_2.11-0.9.0.1.tgz

三台机器做一样的操作

1、创建目录并下载安装软件

[root@test1 ~]# cd /opt/
[root@test1 opt]# mkdir kafka
[root@test1 opt]# cd kafka/
[root@test1 kafka]# mkdir kafkalogs
[root@test1 kafka]# wget https://archive.apache.org/dist/kafka/0.9.0.1/kafka_2.11-0.9.0.1.tgz
[root@test1 kafka]# tar -zxvf kafka_2.11-0.9.0.1.tgz

2、修改配置文件
进入config目录
主要关注:server.properties 这个文件即可,我们可以发现在目录下:
有很多文件,这里可以发现有Zookeeper文件,我们可以根据Kafka内带的zk集群来启动,但是建议使用独立的zk集群

[root@test1 kafka]# cd kafka_2.11-0.9.0.1/
[root@test1 kafka_2.11-0.9.0.1]# cd config/

在这里插入图片描述

[root@test1 config]# vim server.properties #要修改的内容如下,三台都要改

broker.id=1  #每个主机不要一样
listeners=PLAINTEXT:0.0.0.0//:19092   #前面写0.0.0.0,冒号后面的根据自己的端口号改
port=19092  #默认是注释掉的,打开注释,并根据需求更改端口号,默认端口号是9092
advertised.host.name=192.168.1.222   #本机IP或者是可以解析的主机名,默认是注释掉的
log.dirs=/opt/kafka/kafkalogs/   #消息存放目录,指定为刚才创建的目录
log.retention.hours=168   #默认消息的最大持久化,保持默认即可,但是要在下面加这三行代码
message.max.byte=5242880  
default.replication.factor=2
replica.fetch.max.bytes=5242880
zookeeper.connect=192.168.1.222:12181,192.168.1.223:12181,192.168.1.224:12181  #指定zookeeper的连接IP和端口

启动服务

[root@test1 config]# cd /opt/kafka/kafka_2.11-0.9.0.1/bin/   #进入bin目录启动服务
[root@test1 bin]# ./kafka-server-start.sh -daemon ../config/server.properties  #启动服务,三台都要


[root@test1 bin]# jps  #执行命令查看是否创建成功 

在这里插入图片描述

配置文件解释:

broker.id=0  #当前机器在集群中的唯一标识,和zookeeper的myid性质一样
port=19092 #当前kafka对外提供服务的端口默认是9092
advertised.host.name=192.168.1.222 #这个参数默认是关闭的,在0.8.1有个bug,DNS解析问题,失败率的问题。
num.network.threads=3 #这个是borker进行网络处理的线程数
num.io.threads=8 #这个是borker进行I/O处理的线程数
log.dirs=/opt/kafka/kafkalogs/ #消息存放的目录,这个目录可以配置为“,”逗号分割的表达式,上面的num.io.threads要大于这个目录的个数这个目录,如果配置多个目录,新创建的topic他把消息持久化的地方是,当前以逗号分割的目录中,那个分区数最少就放那一个
socket.send.buffer.bytes=102400 #发送缓冲区buffer大小,数据不是一下子就发送的,先回存储到缓冲区了到达一定的大小后在发送,能提高性能
socket.receive.buffer.bytes=102400 #kafka接收缓冲区大小,当数据到达一定大小后在序列化到磁盘
socket.request.max.bytes=104857600 #这个参数是向kafka请求消息或者向kafka发送消息的请请求的最大数,这个值不能超过java的堆栈大小
num.partitions=1 #默认的分区数,一个topic默认1个分区数
log.retention.hours=168 #默认消息的最大持久化时间,168小时,7天
message.max.byte=5242880  #消息保存的最大值5M
default.replication.factor=2  #kafka保存消息的副本数,如果一个副本失效了,另一个还可以继续提供服务
replica.fetch.max.bytes=5242880  #取消息的最大直接数
log.segment.bytes=1073741824 #这个参数是:因为kafka的消息是以追加的形式落地到文件,当超过这个值的时候,kafka会新起一个文件
log.retention.check.interval.ms=300000 #每隔300000毫秒去检查上面配置的log失效时间(log.retention.hours=168 ),到目录查看是否有过期的消息如果有,删除
log.cleaner.enable=false #是否启用log压缩,一般不用启用,启用的话可以提高性能
zookeeper.connect=192.168.1.222:12181,192.168.1.223:12181,192.168.1.224:12181 #设置zookeeper的连接端口

3、创建Topic来验证是否成功
更多命令到官网http://kafka.apache.org/documentation/#operations 查看
#创建Topic
–replication-factor 2 #复制两份
–partitions 1 #创建1个分区
–topic #主题为test

[root@test1 bin]# ./kafka-topics.sh --create --zookeeper 192.168.1.222:12181 --replication-factor 2 --partitions 1 --topic test

#在test1上创建一个broker,发布者,并输入内容

[root@test1 bin]# ./kafka-console-producer.sh --broker-list 192.168.1.222:19092 --topic test
//输入内容    
test1
tes

在这里插入图片描述

#到test3上看看

[root@test3 bin]# ./kafka-console-consumer.sh --zookeeper 127.0.0.1:12181 --topic test --from-beginning
test1
tes

在这里插入图片描述

kafka集群搭建OK了

4、查看topic

[root@test1 bin]# ./kafka-topics.sh --list --zookeeper localhost:12181

在这里插入图片描述

查看topic状态

[root@test1 bin]# ./kafka-topics.sh --describe --zookeeper localhost:12181 --topic shuaige

在这里插入图片描述

#分区为为1 复制因子为2 他的 shuaige的分区为0
#Replicas: 0,1 复制的为0,1

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值