大数据学习笔记(4)--kafka(1)--概述和集群部署

最新推荐文章于 2024-05-29 12:29:44 发布

qq_43349416

最新推荐文章于 2024-05-29 12:29:44 发布

阅读量269

点赞数

分类专栏：大数据学习

本文链接：https://blog.csdn.net/qq_43349416/article/details/108068869

版权

大数据学习专栏收录该内容

6 篇文章 1 订阅

订阅专栏

kafka的概述和部署

概述
集群部署

概述

定义

在流式计算中，Kafka一般用来缓存数据，Storm通过消费Kafka的数据进行计算。
1）Apache Kafka是一个开源消息系统，由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。
2）Kafka最初是由LinkedIn公司开发，并于2011年初开源。2012年10月从Apache Incubator毕业。该项目的目标是为处理实时数据提供一个统一、高通量、低等待的平台。
3）Kafka是一个分布式消息队列。Kafka对消息保存时根据Topic进行归类，发送消息者称为Producer，消息接受者称为Consumer，此外kafka集群有多个kafka实例组成，每个实例(server)称为broker。
4）无论是kafka集群，还是consumer都依赖于zookeeper集群保存一些meta信息，来保证系统可用性。

kafka架构

在这里插入图片描述

kafka架构详细图

在这里插入图片描述

1）Producer ： 消息生产者，就是向kafka broker发消息的客户端；
2）Consumer ： 消息消费者，向kafka broker取消息的客户端；
3）Topic ： 可以理解为一个队列；
4） Consumer Group （CG）： 这是kafka用来实现一个topic消息的广播（发给所有的consumer）和单播（发给任意一个consumer）的手段。一个topic可以有多个CG。topic的消息会复制（不是真的复制，是概念上的）到所有的CG，但每个partion只会把消息发给该CG中的一个consumer。如果需要实现广播，只要每个consumer有一个独立的CG就可以了。要实现单播只要所有的consumer在同一个CG。用CG还可以将consumer进行自由的分组而不需要多次发送消息到不同的topic；
5）Broker ： 一台kafka服务器就是一个broker。一个集群由多个broker组成。一个broker可以容纳多个topic；
6）Partition： 为了实现扩展性，一个非常大的topic可以分布到多个broker（即服务器）上，一个topic可以分为多个partition，每个partition是一个有序的队列。partition中的每条消息都会被分配一个有序的id（offset）。kafka只保证按一个partition中的顺序将消息发给consumer，不保证一个topic的整体（多个partition间）的顺序；
7）Offset： kafka的存储文件都是按照offset.kafka来命名，用offset做名字的好处是方便查找。例如你想找位于2049的位置，只要找到2048.kafka的文件即可。当然the first offset就是00000000000.kafka。

集群部署

下载jar包

我的版本是

kafka_2.11-0.11.0.0.tgz

解压，改名

[root@hadoop101 software]# ll
total 448864
-rw-r--r--. 1 root root 197657687 Jul 25 14:21 hadoop-2.7.2.tar.gz
-rw-r--r--. 1 root root 185515842 Jul 25 14:21 jdk-8u144-linux-x64.tar.gz
-rw-r--r--  1 root root  41414555 Aug 17 19:37 kafka_2.11-0.11.0.0.tgz
-rw-r--r--  1 root root  35042811 Aug 17 19:39 zookeeper-3.4.10.tar.gz
#解压
[root@hadoop101 software]# tar -xzvf kafka_2.11-0.11.0.0.tgz -C /opt/local/kafka
#修改之后的名称
[root@hadoop101 kafka]# mv kafka_2.11-0.11.0.0/   kafka_2.11

新建logs文件夹

[root@hadoop101 kafka_2.11]# mkdir logs

修改配置文件

[root@hadoop101 kafka_2.11]# cd config/
[root@hadoop101 config]# vim server.properties


#broker的全局唯一编号，不能重复
broker.id=0

#删除topic功能使能
delete.topic.enable=true

#kafka运行日志存放的路径	
log.dirs=/opt/local/kafka/kafka_2.11/logs

#配置连接Zookeeper集群地址
zookeeper.connect=hadoop101:2181,hadoop102:2181,hadoop103:2181

分别在hadoop102和hadoop103上修改配置文件中的broker.id=1、broker.id=2
保证三个文件中的这个id不一样且为整数

将kafka目录分发到hadoop102和hadoop103

[root@hadoop101 kafka]# xsync kafka_2.11/

配置环境变量

hadoop101、hadoop102、hadoop103都配置环境变量
然后source /etc/profile 一下

#KAFKA_HOME 
export KAFKA_HOME=/opt/local/kafka/kafka_2.11
export PATH=$PATH:$KAFKA_HOME/bin

启动kafka

我这启动报错了–原因是内存太小了不够启动用

[root@hadoop101 kafka_2.11]# bin/kafka-server-start.sh config/server.properties
Java HotSpot(TM) 64-Bit Server VM warning: INFO: os::commit_memory(0x00000000c0000000, 1073741824, 0) failed; error='Cannot allocate memory' (errno=12)
#
# There is insufficient memory for the Java Runtime Environment to continue.
# Native memory allocation (mmap) failed to map 1073741824 bytes for committing reserved memory.
# An error report file with more information is saved as:
# /opt/local/kafka/kafka_2.11/hs_err_pid6694.log

改正方法-修改启动的分配内存大小

[root@hadoop101 kafka_2.11]# cd bin
[root@hadoop101 bin]# vim kafka-server-start.sh 

# contributor license agreements.  See the NOTICE file distributed with
# this work for additional information regarding copyright ownership.
# The ASF licenses this file to You under the Apache License, Version 2.0
# (the "License"); you may not use this file except in compliance with
# the License.  You may obtain a copy of the License at
#
#    http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.
if [ $# -lt 1 ];
then
        echo "USAGE: $0 [-daemon] server.properties [--override property=value]*"
        exit 1
fi
base_dir=$(dirname $0)

if [ "x$KAFKA_LOG4J_OPTS" = "x" ]; then
    export KAFKA_LOG4J_OPTS="-Dlog4j.configuration=file:$base_dir/../config/log4j.properties"
fi

if [ "x$KAFKA_HEAP_OPTS" = "x" ]; then
    export KAFKA_HEAP_OPTS="-Xmx256m -Xms128m"
fi

EXTRA_ARGS=${EXTRA_ARGS-'-name kafkaServer -loggc'}

COMMAND=$1
case $COMMAND in

export KAFKA_HEAP_OPTS="-Xmx256m -Xms128m" 这里我将这两个参数改为了256M和128M，可以根据自己电脑实际情况修改

启动

[root@hadoop101 kafka_2.11]# bin/kafka-server-start.sh -daemon /opt/local/kafka/kafka_2.11/config/server.properties
[root@hadoop101 kafka_2.11]# jps
7156 Kafka
3189 DataNode
7173 Jps
3095 NameNode
3452 NodeManager
5598 QuorumPeerMain

注：这里启动前必须启动zookeeper，我这里启动的还有之前配置的hadoop，hadoop是非必须的。

关闭kafka

[root@hadoop101 kafka_2.11]# bin/kafka-server-stop.sh stop

—end—

qq_43349416

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录