Linux系统 Kafka集群

Kafka相关概念

Kafka的定义

它是一个分布式消息系统,由linkedin使用scala编写,用作LinkedIn的活动流(Activity Stream)和运营数据处理管道(Pipeline)的基础。具有高水平扩展和高吞吐量。

注:Zookeeper是一种在分布式系统中被广泛用来作为:分布式状态管理、分布式协调管理、分布式配置管理、和分布式锁服务的集群。kafka增加和减少服务器都会在Zookeeper节点上触发相应的事件kafka系统会捕获这些事件,进行新一轮的负载均衡,客户端也会捕获这些事件来进行新一轮的处理。

1、 AMQP协议

Advanced Message Queuing Protocol (高级消息队列协议)

The Advanced Message Queuing Protocol (AMQP):是一个标准开放的应用层的消息中间件(Message Oriented Middleware)协议。AMQP定义了通过网络发送的字节流的数据格式。因此兼容性非常好,任何实现AMQP协议的程序都可以和与AMQP协议兼容的其他程序交互,可以很容易做到跨语言,跨平台。

2、 一些基本的概念

1、消费者:(Consumer):从消息队列中请求消息的客户端应用程序

2、生产者:(Producer)  :向broker发布消息的应用程序

3、AMQP服务端(broker):用来接收生产者发送的消息并将这些消息路由给服务器中的队列,便于fafka将生产者发送的消息,动态的添加到磁盘并给每一条消息一个偏移量,所以对于kafka一个broker就是一个应用程序的实例

kafka支持的客户端语言:Kafka客户端支持当前大部分主流语言,包括:C、C++、Erlang、Java、.net、perl、PHP、Python、Ruby、Go、Javascript

可以使用以上任何一种语言和kafka服务器进行通信(即辨析自己的consumer从kafka集群订阅消息也可以自己写producer程序) 

3、Kafka架构

生产者生产消息、kafka集群、消费者获取消息这样一种架构,如下图:

 

 

 

 

 

kafka集群中的消息,是通过Topic(主题)来进行组织的,如下图:

 

 

 

一些基本的概念:

1、主题(Topic):一个主题类似新闻中的体育、娱乐、教育等分类概念,在实际工程中通常一个业务一个主题。

2、分区(Partition):一个Topic中的消息数据按照多个分区组织,分区是kafka消息队列组织的最小单位,一个分区可以看作是一个FIFO( First Input First Output的缩写,先入先出队列)的队列。

kafka分区是提高kafka性能的关键所在,当你发现你的集群性能不高时,常用手段就是增加Topic的分区,分区里面的消息是按照从新到老的顺序进行组织,消费者从队列头订阅消息,生产者从队列尾添加消息。

工作图:

 

 

 

 

 

备份(Replication):为了保证分布式可靠性,kafka0.8开始对每个分区的数据进行备份(不同的Broker上),防止其中一个Broker宕机造成分区上的数据不可用。

kafka0.7是一个很大的改变:1、增加了备份2、增加了控制借点概念,增加了集群领导者选举 。

 

Zookeeper集群搭建

Kafka集群是把状态保存在Zookeeper中的,首先要搭建Zookeeper集群。

1、软件环境

(3台服务器-我的测试)

192.168.7.100 server1

192.168.7.101 server2

192.168.7.107 server3

1、Linux服务器一台、三台、五台、(2*n+1),Zookeeper集群的工作是超过半数才能对外提供服务,3台中超过两台超过半数,允许1台挂掉 ,是否可以用偶数,其实没必要。如果有四台那么挂掉一台还剩下三台服务器,如果在挂掉一个就不行了,这里记住是超过半数。

2、Java jdk1.8 zookeeper是用java写的所以他的需要JAVA环境,java是运行在java虚拟机上的

3、Zookeeper的稳定版本Zookeeper-3.4.13版本 

2、配置&安装Zookeeper

下面的操作是:3台服务器统一操作

1、 安装Java并添加环境变量至/etc/profile

# tar -zxf jdk-8u201-linux-x64.tar.gz -c /usr/local/java/

# JAVA_HOME=/usr/local/java/jdk1.8.0_201

#CLASSPATH=.:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar

#PATH=$JAVA_HOME/bin:$HOME/bin:$HOME/.local/bin:$PATH

2、安装Zookeeper

#项目目录zookeeper-3.4.13

#存放快照日志mkdir /usr/local/kafka/zookeeper-3.4.13/zkdata

#存放事物日志mkdir /usr/local/kafka/zookeeper-3.4.13/zkdatalog

#解压软件tar -zxf zookeeper-3.4.13.tar.gz -C /usr/local/kafka/

3、修改配置文件/usr/local/kafka/zookeeper-3.4.13/conf

3台服务器的配置文件

tickTime=2000

initLimit=10

syncLimit=5

dataDir=/usr/local/kafka/zookeeper-3.4.13/zkdata

dataLogDir=/usr/local/kafka/zookeeper-3.4.13/zkdatalog

clientPort=12181

server.1=192.168.7.100:12888:13888

server.2=192.168.7.101:12888:13888

server.3=192.168.7.107:12888:13888

#server.1 这个1是服务器的标识也可以是其他的数字, 表示这个是第几号服务器,用来标识服务器,这个标识要写到快照目录下面myid文件里

#192.168.7.107为集群里的IP地址,第一个端口是master和slave之间的通信端口,默认是2888,第二个端口是leader选举的端口,集群刚启动的时候选举或者leader挂掉之后进行新的选举的端口默认是3888

配置文件解释:

#tickTime:这个时间是作为 Zookeeper 服务器之间或客户端与服务器之间维持心跳的时间间隔,也就是每个 tickTime 时间就会发送一个心跳。

#initLimit:这个配置项是用来配置 Zookeeper 接受客户端(这里所说的客户端不是用户连接 Zookeeper 服务器的客户端,而是 Zookeeper 服务器集群中连接到 Leader 的 Follower 服务器)初始化连接时最长能忍受多少个心跳时间间隔数。当已经超过 5个心跳的时间(也就是 tickTime)长度后 Zookeeper 服务器还没有收到客户端的返回信息,那么表明这个客户端连接失败。总的时间长度就是 5*2000=10 秒#syncLimit:这个配置项标识 Leader 与Follower 之间发送消息,请求和应答时间长度,最长不能超过多少个 tickTime 的时间长度,总的时间长度就是5*2000=10秒#dataDir:快照日志的存储路径

#dataLogDir:事物日志的存储路径,如果不配置这个那么事物日志会默认存储到dataDir制定的目录,这样会严重影响zk的性能,当zk吞吐量较大的时候,产生的事物日志、快照日志太多

#clientPort:这个端口就是客户端连接 Zookeeper 服务器的端口,Zookeeper 会监听这个端口,接受客户端的访问请求。

 

创建myid文件

#server1 echo "1" > /usr/local/kafka/zookeeper-3.4.13/zkdata/myid

#server2 echo "2" > /usr/local/kafka/zookeeper-3.4.13/zkdata/myid

#server3 echo "3" > /usr/local/kafka/zookeeper-3.4.13/zkdata/myid

 

4、重要配置说明

1、myid文件和server.myid  在快照目录下存放的标识本台服务器的文件,他是整个zk集群用来发现彼此的一个重要标识。

2、zoo.cfg 文件是zookeeper配置文件 在conf目录里。

3、log4j.properties文件是zk的日志输出文件 在conf目录里用java写的程序基本上有个共同点日志都用log4j,来进行管理。configuration for log4j

4、zkEnv.sh和zkServer.sh文件

zkServer.sh 主的管理程序文件

zkEnv.sh 是主要配置,zookeeper集群启动时配置环境变量的文件

5、还有一个需要注意

ZooKeeper server will not remove old snapshots and log files when using the default configuration (see autopurge below), this is the responsibility of the operator

zookeeper不会主动的清除旧的快照和日志文件,这个是操作者的责任。

但是可以通过命令去定期删除

第一种方法

#!/bin/bash

#snapshot file dir

dataDir=/usr/local/kafka/zookeeper-3.4.13/zkdata/version-2

#tran log dir

dataLogDir=/usr/local/kafka/zookeeper-3.4.13/zkdatalog/version-2

#Leave 66 files

count=66 

count=$[$count+1] 

ls -t $dataLogDir/log.* | tail -n +$count | xargs rm -f 

ls -t $dataDir/snapshot.* | tail -n +$count | xargs rm –f

#以上这个脚本定义了删除对应两个目录中的文件,保留最新的66个文件,可以将他写到crontab中,设置为每天凌晨2点执行一次就可以了。

#logDir=

#ls -t $logDir/zookeeper.log.* | tail -n +$count | xargs rm -f

第二种

从3.4.0开始,zookeeper提供了自动清理snapshot和事务日志的功能通过配置 autopurge.snapRetainCount 和 autopurge.purgeInterval 这两个参数能够实现定时清理了。

这两个参数都是在zoo.cfg中配置的:

autopurge.purgeInterval  这个参数指定了清理频率,单位是小时,需要填写一个1或更大的整数,默认是0,表示不开启自己清理功能。

autopurge.snapRetainCount 这个参数和上面的参数搭配使用,这个参数指定了需要保留的文件数目。默认是保留3个。

5、启动服务并查看

1、启动服务

#进入到Zookeeper的bin目录下

#cd /usr/local/kafka/zookeeper-3.4.13/bin

#启动服务(3台都需要操作)

#./zkServer.sh start

2、检查服务状态

#检查服务器状态

#./zkServer.sh status

通过status就能看到状态:

#./zkServer.sh status JMX enabled by default Using config: /usr/local/kafka/zookeeper-3.4.13/bin/../conf/zoo.cfg  #配置文件 Mode: follower  #他是否为领导

zk集群一般只有一个leader,多个follower,主一般是相应客户端的读写请求,而从主同步数据,当主挂掉之后就会从follower里投票选举一个leader出来。

可以用“jps”查看zk的进程,这个是zk的整个工程的main

#执行命令

#jps

 

Kafka集群搭建

1、软件环境

1、linux一台或多台,大于等于2

2、已经搭建好的zookeeper集群

3、软件版本kafka_2.11-1.1.0.tgz

2、创建目录并下载安装软件

#创建项目目录/usr/local/kafka

#创建kafka消息目录主要存放kafka消息mkdir kafkalogs

#解压软件tar -zxvf kafka_2.11-1.1.0.tgz

3、修改配置文件

进入到config目录

#cd /usr/local/kafka/kafka_2.11-1.1.0/config/

主要关注:server.properties 这个文件即可,我们可以发现在目录下:

有很多文件,这里可以发现有Zookeeper文件,我们可以根据Kafka内带的zk集群来启动,但是建议使用独立的zk集群

修改配置文件:

#当前机器在集群中的唯一标识,和zookeeper的myid性质一样

broker.id=0

#当前kafka对外提供服务的端口默认是9092

port=19092

#这个参数默认是关闭的,在0.8.1有个bug,DNS解析问题,失败率的问题。

host.name=192.168.7.100

#这个是borker进行网络处理的线程数

num.network.threads=3

#这个是borker进行I/O处理的线程数

num.io.threads=8

#消息存放的目录,这个目录可以配置为“,”逗号分割的表达式,上面的num.io.threads要大于这个目录的个数这个目录,如果配置多个目录,新创建的topic他把消息持久化的地方是,当前以逗号分割的目录中,那个分区数最少就放那一个

log.dirs= /usr/local/kafka/kafka_2.11-1.1.0/kafkalogs/

#发送缓冲区buffer大小,数据不是一下子就发送的,先回存储到缓冲区了到达一定的大小后在发送,能提高性能

socket.send.buffer.bytes=102400

#kafka接收缓冲区大小,当数据到达一定大小后在序列化到磁盘

socket.receive.buffer.bytes=102400

#这个参数是向kafka请求消息或者向kafka发送消息的请请求的最大数,这个值不能超过java的堆栈大小

socket.request.max.bytes=104857600

#默认的分区数,一个topic默认1个分区数

num.partitions=1

#默认消息的最大持久化时间,168小时,7天

log.retention.hours=168

#消息保存的最大值5M

message.max.byte=5242880

#kafka保存消息的副本数,如果一个副本失效了,另一个还可以继续提供服务

default.replication.factor=2

#取消息的最大直接数#

replica.fetch.max.bytes=5242880

#这个参数是:因为kafka的消息是以追加的形式落地到文件,当超过这个值的时候,kafka会新起一个文件

log.segment.bytes=1073741824

#每隔300000毫秒去检查上面配置的log失效时间(log.retention.hours=168 ),到目录查看是否有过期的消息如果有,删除  

log.retention.check.interval.ms=300000

#是否启用log压缩,一般不用启用,启用的话可以提高性能

log.cleaner.enable=false

#设置zookeeper的连接端口zookeeper.connect=192.168.7.100:12181,192.168.7.101:12181,192.168.7.107:12181

配置文件server.properties

broker.id=0

port=19092

host.name=192.168.7.100

listeners=PLAINTEXT://192.168.7.100:19092

advertised.listeners=PLAINTEXT://192.168.7.100:19092

num.network.threads=3

num.io.threads=8

log.dirs= /usr/local/kafka/kafka_2.11-1.1.0/kafkalogs/

socket.send.buffer.bytes=102400

socket.receive.buffer.bytes=102400

socket.request.max.bytes=104857600

num.partitions=1

log.retention.hours=168

message.max.byte=5242880

default.replication.factor=2

replica.fetch.max.bytes=5242880

log.segment.bytes=1073741824

log.retention.check.interval.ms=300000

log.cleaner.enable=false

zookeeper.connect=192.168.7.100:12181,192.168.7.101:12181,192.168.7.107:12181

4、启动Kafka集群并测试

1、启动服务

#从后台启动Kafka集群(3台都需要启动)

#cd /usr/local/kafka/kafka_2.11-1.1.0/bin

#进入到kafka的bin目录

./kafka-server-start.sh -daemon ../config/server.properties

2、检查服务是否启动

#执行命令jps20348 Jps 4233 QuorumPeerMain 18991 Kafka

3、创建Topic来验证是否创建成功

#创建Topic

./kafka-topics.sh --create --zookeeper 192.168.7.100:12181 --replication-factor 2 --partitions 1 --topic hetao

#解释

--replication-factor 2   #复制两份

--partitions 1 #创建1个分区

--topic #主题为hetao

'''在一台服务器上创建一个发布者'''

#创建一个broker,发布者

#./kafka-console-producer.sh --broker-list 192.168.7.100:19092 --topic hetao

'''在一台服务器上创建一个订阅者'''

#./kafka-console-consumer.sh --zookeeper 192.168.7.100:12181 --topic test --from-beginning

测试(在发布者那里发布消息看看订阅者那里是否能正常收到~):

4、其他命令

大部分命令可以去官方文档查看

4.1、查看topic

./kafka-topics.sh --list --zookeeper 192.168.7.100:12181

#就会显示我们创建的所有topic

4.2、查看topic状态

/kafka-topics.sh --describe --zookeeper 192.168.7.100:12181 --topic hetao

#下面是显示信息

Topic:ssports    PartitionCount:1    ReplicationFactor:2    Configs:     Topic: hetao    Partition: 0    Leader: 1    Replicas: 0,1    Isr: 1

#分区为为1  复制因子为2   他的hetao的分区为0  #Replicas: 0,1   复制的为0,1 #

kafka集群搭建完毕

 

转载于:https://www.cnblogs.com/devops-docker/p/11507069.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 要搭建Kafka集群,需要以下步骤: 1. 安装Java环境:Kafka是基于Java开发的,因此需要先安装Java环境。 2. 下载Kafka:从官网下载Kafka的二进制包。 3. 解压Kafka:将下载的Kafka二进制包解压到指定的目录下。 4. 配置Kafka:修改Kafka的配置文件,包括broker.id、zookeeper.connect、listeners等参数。 5. 启动Zookeeper:Kafka依赖于Zookeeper,因此需要先启动Zookeeper。 6. 启动Kafka:启动Kafka集群,可以使用命令行或者脚本启动。 7. 测试Kafka:使用Kafka提供的命令行工具进行测试,包括创建主题、发送消息、消费消息等操作。 8. 部署Kafka集群:将Kafka集群部署到多台服务器上,可以使用Kafka提供的复制机制实现数据的备份和容错。 以上就是搭建Kafka集群的基本步骤。需要注意的是,Kafka的配置和部署需要根据实际情况进行调整和优化,以保证Kafka集群的性能和稳定性。 ### 回答2: Kafka是一款高性能的分布式消息系统,常常用于大规模数据流的处理和分发。Linux作为一个可靠的服务端操作系统,也是Kafka的一个常见的运行环境。本文将介绍在Linux环境下搭建Kafka集群的步骤和注意事项。 1. 安装Java Kafka是基于Java开发的,因此需要先安装Java运行环境。使用以下命令安装Java 8: ``` $ sudo apt-get update $ sudo apt-get install openjdk-8-jdk ``` 2. 下载和解压缩Kafka 下载Kafka最新版本,并解压缩到合适的目录下。比如: ``` $ wget https://downloads.apache.org/kafka/2.6.0/kafka_2.13-2.6.0.tgz $ tar -zxf kafka_2.13-2.6.0.tgz $ cd kafka_2.13-2.6.0 ``` 3. 修改配置文件 Kafka的配置文件位于“config”目录下,常见的有“server.properties”和“zookeeper.properties”。我们需要修改这些配置文件以适配我们的环境。下面是一些要注意的设置: - “server.properties”中的“broker.id”必须是唯一的,每个Kafka节点应该有一个唯一的值。 - “server.properties”中需要设置“listeners”为“PLAINTEXT://:9092”或“PLAINTEXT://[[hostname]]:9092”,这样才能通过网络接口访问到Kafka。 - “zookeeper.properties”中需要设置“dataDir”为Zookeeper数据存储的目录。 4. 启动Zookeeper Kafka依赖Zookeeper来管理集群配置,因此需要先启动Zookeeper。使用以下命令启动Zookeeper: ``` $ bin/zookeeper-server-start.sh config/zookeeper.properties ``` 5. 启动Kafka节点 我们可以使用以下命令启动一个Kafka节点,注意使用不同的配置文件: ``` $ bin/kafka-server-start.sh config/server.properties ``` 如果我们需要启动多个节点,可以使用不同的配置文件,并在启动时设置不同的“broker.id”。启动一组Kafka节点后,它们将自动组成一个集群。 6. 测试 使用以下命令创建一个主题和消费者: ``` $ bin/kafka-topics.sh --create --bootstrap-server localhost:9092 --replication-factor 1 --partitions 1 --topic test $ bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic test --from-beginning ``` 然后在生产者端发送一些消息: ``` $ bin/kafka-console-producer.sh --broker-list localhost:9092 --topic test >test message 1 >test message 2 ``` 我们应该可以在消费者端看到这些消息。 7. 总结 在Linux环境下搭建Kafka集群需要一定的基础知识和技能,但只要按照上述步骤操作,应该能够很容易地搭建一个稳定的、高性能的Kafka环境。当然,在运维过程中也需要注意Kafka的一些常见问题,如副本同步延迟、消息丢失等。不过这些问题已经超出了本文的范围。 ### 回答3: Kafka是一个高性能、可扩展、分布式的消息队列,由于它的高可靠性和高吞吐量,越来越多的企业选择使用Kafka作为消息中间件。为满足大规模数据处理和高并发请求的需求,必须通过搭建Kafka集群来保证其性能和可靠性。 一、环境准备 1.安装Java环境:Kafka运行需要Java环境,安装JDK。 2.下载和安装KafkaKafka官方网站下载.tar.gz格式的压缩包,解压缩至指定路径即可。 3.配置Kafka:修改config文件夹下server.properties配置文件,设置Kafka的基本参数。 4.准备Zookeeper环境:Kafka集群依赖于Zookeeper环境,需要先安装Zookeeper。 5.配置Zookeeper:修改Zookeeper的配置文件config/zookeeper.properties,设置Zookeeper的基本参数。 二、搭建Kafka集群 1.编辑Kafka配置文件:修改Kafka的配置文件config/server.properties,设置Kafka节点通信机制,以及数据保存路径等参数。 2.启动Zookeeper:启动Zookeeper,确保Zookeeper正常工作。 3.启动Kafka服务器:执行bin/kafka-server-start.sh config/server.properties命令启动Kafka服务器,启动成功后就可以在本机访问Kafka。 4.配置Kafka集群: 在每个Kafka节点上修改配置文件,设置broker.id、zookeeper.connect、port等参数,然后依次启动所有节点。 5.测试Kafka集群: 在集群中的任何一个节点上创建一个主题,向主题中发送消息并消费消息,以确保Kafka集群的正常工作。 三、集群管理 管理Kafka集群需要使用kafka-manager或kafka-web-console等工具,可以通过Web界面来管理Kafka集群的主题、分区、消费者以及监控Kafka的各项指标,方便用户进行集群管理。 总之,通过上述步骤,可以快速搭建一个高可靠、高吞吐量的Kafka集群,为企业提供无缝的数据传输、消息中间件服务。同时,对于管理者而言,还需要做好监控和维护工作,保证 kafka 集群持续稳定的工作,最终满足各种复杂业务的数据流转和处理需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值