大数据学习笔记(4)--kafka(1)--概述和集群部署

概述

定义

在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。
1)Apache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。
2)Kafka最初是由LinkedIn公司开发,并于2011年初开源。2012年10月从Apache Incubator毕业。该项目的目标是为处理实时数据提供一个统一、高通量、低等待的平台。
3)Kafka是一个分布式消息队列。Kafka对消息保存时根据Topic进行归类,发送消息者称为Producer,消息接受者称为Consumer,此外kafka集群有多个kafka实例组成,每个实例(server)称为broker。
4)无论是kafka集群,还是consumer都依赖于zookeeper集群保存一些meta信息,来保证系统可用性。

kafka架构

在这里插入图片描述

kafka架构详细图

在这里插入图片描述

1)Producer : 消息生产者,就是向kafka broker发消息的客户端;
2)Consumer : 消息消费者,向kafka broker取消息的客户端;
3)Topic : 可以理解为一个队列;
4) Consumer Group (CG): 这是kafka用来实现一个topic消息的广播(发给所有的consumer)和单播(发给任意一个consumer)的手段。一个topic可以有多个CG。topic的消息会复制(不是真的复制,是概念上的)到所有的CG,但每个partion只会把消息发给该CG中的一个consumer。如果需要实现广播,只要每个consumer有一个独立的CG就可以了。要实现单播只要所有的consumer在同一个CG。用CG还可以将consumer进行自由的分组而不需要多次发送消息到不同的topic;
5)Broker : 一台kafka服务器就是一个broker。一个集群由多个broker组成。一个broker可以容纳多个topic;
6)Partition: 为了实现扩展性,一个非常大的topic可以分布到多个broker(即服务器)上,一个topic可以分为多个partition,每个partition是一个有序的队列。partition中的每条消息都会被分配一个有序的id(offset)。kafka只保证按一个partition中的顺序将消息发给consumer,不保证一个topic的整体(多个partition间)的顺序;
7)Offset: kafka的存储文件都是按照offset.kafka来命名,用offset做名字的好处是方便查找。例如你想找位于2049的位置,只要找到2048.kafka的文件即可。当然the first offset就是00000000000.kafka。

集群部署

下载jar包

我的版本是

kafka_2.11-0.11.0.0.tgz

解压,改名

[root@hadoop101 software]# ll
total 448864
-rw-r--r--. 1 root root 197657687 Jul 25 14:21 hadoop-2.7.2.tar.gz
-rw-r--r--. 1 root root 185515842 Jul 25 14:21 jdk-8u144-linux-x64.tar.gz
-rw-r--r--  1 root root  41414555 Aug 17 19:37 kafka_2.11-0.11.0.0.tgz
-rw-r--r--  1 root root  35042811 Aug 17 19:39 zookeeper-3.4.10.tar.gz
#解压
[root@hadoop101 software]# tar -xzvf kafka_2.11-0.11.0.0.tgz -C /opt/local/kafka
#修改之后的名称
[root@hadoop101 kafka]# mv kafka_2.11-0.11.0.0/   kafka_2.11

新建logs文件夹

[root@hadoop101 kafka_2.11]# mkdir logs

修改配置文件

[root@hadoop101 kafka_2.11]# cd config/
[root@hadoop101 config]# vim server.properties 

#broker的全局唯一编号,不能重复
broker.id=0

#删除topic功能使能
delete.topic.enable=true

#kafka运行日志存放的路径	
log.dirs=/opt/local/kafka/kafka_2.11/logs

#配置连接Zookeeper集群地址
zookeeper.connect=hadoop101:2181,hadoop102:2181,hadoop103:2181

分别在hadoop102和hadoop103上修改配置文件中的broker.id=1、broker.id=2
保证三个文件中的这个id不一样且为整数

将kafka目录分发到hadoop102和hadoop103

[root@hadoop101 kafka]# xsync kafka_2.11/

配置环境变量

hadoop101、hadoop102、hadoop103都配置环境变量
然后source /etc/profile 一下

#KAFKA_HOME 
export KAFKA_HOME=/opt/local/kafka/kafka_2.11
export PATH=$PATH:$KAFKA_HOME/bin

启动kafka

我这启动报错了–原因是内存太小了不够启动用

[root@hadoop101 kafka_2.11]# bin/kafka-server-start.sh config/server.properties
Java HotSpot(TM) 64-Bit Server VM warning: INFO: os::commit_memory(0x00000000c0000000, 1073741824, 0) failed; error='Cannot allocate memory' (errno=12)
#
# There is insufficient memory for the Java Runtime Environment to continue.
# Native memory allocation (mmap) failed to map 1073741824 bytes for committing reserved memory.
# An error report file with more information is saved as:
# /opt/local/kafka/kafka_2.11/hs_err_pid6694.log

改正方法-修改启动的分配内存大小

[root@hadoop101 kafka_2.11]# cd bin
[root@hadoop101 bin]# vim kafka-server-start.sh 

# contributor license agreements.  See the NOTICE file distributed with
# this work for additional information regarding copyright ownership.
# The ASF licenses this file to You under the Apache License, Version 2.0
# (the "License"); you may not use this file except in compliance with
# the License.  You may obtain a copy of the License at
#
#    http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.
if [ $# -lt 1 ];
then
        echo "USAGE: $0 [-daemon] server.properties [--override property=value]*"
        exit 1
fi
base_dir=$(dirname $0)

if [ "x$KAFKA_LOG4J_OPTS" = "x" ]; then
    export KAFKA_LOG4J_OPTS="-Dlog4j.configuration=file:$base_dir/../config/log4j.properties"
fi

if [ "x$KAFKA_HEAP_OPTS" = "x" ]; then
    export KAFKA_HEAP_OPTS="-Xmx256m -Xms128m"
fi

EXTRA_ARGS=${EXTRA_ARGS-'-name kafkaServer -loggc'}

COMMAND=$1
case $COMMAND in

export KAFKA_HEAP_OPTS="-Xmx256m -Xms128m" 这里我将这两个参数改为了256M和128M,可以根据自己电脑实际情况修改

启动

[root@hadoop101 kafka_2.11]# bin/kafka-server-start.sh -daemon /opt/local/kafka/kafka_2.11/config/server.properties
[root@hadoop101 kafka_2.11]# jps
7156 Kafka
3189 DataNode
7173 Jps
3095 NameNode
3452 NodeManager
5598 QuorumPeerMain

注:这里启动前必须启动zookeeper,我这里启动的还有之前配置的hadoop,hadoop是非必须的。

关闭kafka

[root@hadoop101 kafka_2.11]# bin/kafka-server-stop.sh stop

—end—

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值