下载编译后的包
https://mirror.bit.edu.cn/apache/kafka/2.5.0/kafka_2.12-2.5.0.tgz
2.上传并解压
3.进入config目录,配置server.properties
主要配置如下:
#一个broker在集群中的唯一标示,要求是正数。在改变IP地址,不改变broker.id的话不会影响consumers
broker.id=1
#listeners=PLAINTEXT://:9092
#advertised.listeners=PLAINTEXT://your.host.name:9092
#listener.security.protocol.map=PLAINTEXT:PLAINTEXT,SSL:SSL,SASL_PLAINTEXT:SASL_PLAINTEXT,SASL_SSL:SASL_SS
# broker 处理消息的最大线程数,一般情况下不需要去修改
num.network.threads=3
# broker处理磁盘IO 的线程数 ,数值应该大于你的硬盘数
num.io.threads=8
# socket的发送缓冲区(SO_SNDBUF)
socket.send.buffer.bytes=102400
# socket的接收缓冲区 (SO_RCVBUF)
socket.receive.buffer.bytes=102400
# socket请求的最大字节数。为了防止内存溢出,message.max.bytes必然要小于
socket.request.max.bytes=104857600
#kafka数据的存放地址,多个地址的话用逗号分割 /tmp/kafka-logs-1,/tmp/kafka-logs-2
log.dirs=/opt/kafka/data/log
# 每个topic的分区个数,更多的partition会产生更多的segment file
num.partitions=1
num.recovery.threads.per.data.dir=1
offsets.topic.replication.factor=1
transaction.state.log.replication.factor=1
transaction.state.log.min.isr=1
# 当达到下面的消息数量时,会将数据flush到日志文件中。默认10000
#log.flush.interval.messages=10000
# 当达到下面的时间(ms)时,执行一次强制的flush操作。interval.ms和interval.messages无论哪个达到,都会flush。默认3000ms
#log.flush.interval.ms=1000
# 日志保存时间 (hours|minutes),默认为7天(168小时)。超过这个时间会根据policy处理数据。bytes和minutes无论哪个先达到都会触发。
log.retention.hours=168
#log.retention.bytes=1073741824
# 控制日志segment文件的大小,超出该大小则追加到一个新的日志segment文件中(-1表示没有限制)
log.segment.bytes=1073741824
# 日志片段文件的检查周期,查看它们是否达到了删除策略的设置(log.retention.hours或log.retention.bytes)
log.retention.check.interval.ms=300000
# Zookeeper quorum设置。如果有多个使用逗号分割 例如 ip:prot,ip:prot,ip:prot
zookeeper.connect=localhost:2181
# 连接zk的超时时间
zookeeper.connection.timeout.ms=6000
# ZooKeeper集群中leader和follower之间的同步实际
4.启动kafka服务。
命令需要切换到kafka的bin目录下,
前台运行: bin/kafka-server-start.sh config/server.properties
后台运行: nohup bin/kafka-server-start.sh config/server.properties > kafka-run.log 2>&1 &
5.创建Kafka主题
Kafka提供了一个名为 kafka-topics.sh
的命令行实用程序,用于在服务器上创建主题。 打开新终端并创建一个主题一个名为test
的Topic
先进到bin
目录
./kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test
这条命令的意思是,创建一个Topic到ZK(指定ZK的地址),副本个数为1,分区数为1,Topic的名称为test。
查看服务是否正常,在zookeeper中执行 ls /brokers/ids 查看brokerid
查看已经创建的topic列表
./kafka-topics.sh --list --zookeeper localhost:2181
partions
主题分区数。kafka通过分区策略,将不同的分区分配在一个集群中的broker上,一般会分散在不同的broker上,当只有一个broker时,所有的分区就只分配到该Broker上。
分区在存储方面来讲可以看做成一个可追加的日志文件,消息分别被追加在日志文件的末尾,并却还会维护一个偏移量(offset)。偏移量在分区内是唯一的,kafka通过它来保证同一个分区内消息的顺序性。也就是说,kafka会保证同一个分区内的消息有序,但是不保证主题内的消息有序
replication-factor
用来设置主题的副本数。每个主题可以有多个副本,副本位于集群中不同的broker上,也就是说副本的数量不能超过broker的数量,否则创建主题时会失败。
为了提升分区的容错性,加入了副本机制,通过--replication-factor来指定每一个分区的副本数量。同一分区的几个副本之间保存的是相同的数据(同一时刻,副本之间可能因为没来得及复制,可能不一定完全相同),副本之间的关系是“一主多从”,其中的主(leader)则负责对外提供读写操作的服务,而从(follower)则负责与主节点同步数据,当主节点宕机,从节点之间能重新选举leader进行对外服务
二、集群版
kafka即使启动一台也是集群
上述安装完单机版后 ,可以启动三台。复制 server.properties文件,并修改broker.id和端口信息 如果是三台服务器则 不用复制
2. 启动集群
./bin/kafka-server-start.sh -daemon config/server.properties
./bin/kafka-server-start.sh -daemon config/server1.properties
./bin/kafka-server-start.sh -daemon config/server2.properties