1、Kafka是什么
在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。KAFKA + STORM +REDIS
- Kafka是一个分布式消息队列:生产者、消费者的功能。它提供了类似于JMS的特性,但是在设计实现上完全不同,此外它并不是JMS规范的实现。Kafka由Scala写成。
- Kafka对消息保存时根据Topic进行归类,发送消息者称为Producer,消息接受者称为Consumer,此外kafka集群有多个kafka实例组成,每个实例(server)成为broker。
- 无论是kafka集群,还是producer和consumer都依赖于zookeeper集群保存一些meta信息,来保证系统可用性
2、JMS是什么
JMS是Java提供的一套技术规范,生产消费者模式(生产者、服务器、消费者)
用来异构系统 集成通信,缓解系统瓶颈,提高系统的伸缩性增强系统用户体验,使得系统模块化和组件化变得可行并更加灵活
JMS消息传输模型:
- 点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除)点对点模型通常是一个基于拉取或者轮询的消息传送模型,这种模型从队列中请求信息,而不是将消息推送到客户端。这个模型的特点是发送到队列的消息被一个且只有一个接收者接收处理,即使有多个消息监听者也是如此。
- 发布/订阅模式(一对多,数据生产后,推送给所有订阅者)发布订阅模型则是一个基于推送的消息传送模型。发布订阅模型可以有多种不同的订阅者,临时订阅者只在主动监听主题时才接收消息,而持久订阅者则监听主题的所有消息,即时当前订阅者不可用,处于离线状态。
JMS核心组件:
- Destination:消息发送的目的地,也就是前面说的Queue和Topic。
- Message :从字面上就可以看出是被发送的消息。
-
Producer: 消息的生产者,要发送一个消息,必须通过这个生产者来发送。
- MessageConsumer: 与生产者相对应,这是消息的消费者或接收者,通过它来接收一个消息。
3.常见的类JMS消息服务器
JMS消息服务器ActiveMQ(他支持事务,rocketMq也支持)主要特点:
- 多种语言和协议编写客户端。语言: Java, C, C++, C#, Ruby, Perl, Python, PHP。应用协议: OpenWire,Stomp REST,WS Notification,XMPP,AMQP(高级消息队列协议)
- 完全支持JMS1.1和J2EE 1.4规范 (持久化,XA消息,事务)
- 对Spring的支持,ActiveMQ可以很容易内嵌到使用Spring的系统里面去,而且也支持Spring2.0的特性
- 通过了常见J2EE服务器(如 Geronimo,JBoss 4, GlassFish,WebLogic)的测试,其中通过JCA 1.5 resource adaptors的配置,可以让ActiveMQ可以自动的部署到任何兼容J2EE 1.4 商业服务器上
- 支持多种传送协议:in-VM,TCP,SSL,NIO,UDP,JGroups,JXTA
- 支持通过JDBC和journal提供高速的消息持久化
- 从设计上保证了高性能的集群,客户端-服务器,点对点
- 支持Ajax
- 支持与Axis的整合
- 可以很容易得调用内嵌JMS provider,进行测试
分布式消息中间件 RocketMQ(分布式,亿级消息堆积能力):
- 能够保证严格的消息顺序
- 提供丰富的消息拉取模式
- 高效的订阅者水平扩展能力
- 实时的消息订阅机制
- 亿级消息堆积能力
- Metaq3.0 版本改名,产品名称改为RocketMQ
kafka的主要的特点是为了高吞吐量,支持动态扩容
为什么需要消息队列:解耦,异步和并行
4.Kafka核心组件
- Topic :消息根据Topic进行归类
- Producer:发送消息者
- Consumer:消息接受者
- broker:每个kafka实例(server)
- Zookeeper:依赖集群保存meta信息。
5.kafka集群搭建
首先本篇博客基于Storm集群上搭建kafka集群,所以机器的配置和Storm的一样
所以首先起来zk:
1.下载安装包
http://kafka.apache.org/downloads.html
在linux中使用wget命令下载安装包
Sudo yum -y install wget
wget http://mirror.bit.edu.cn/apache/kafka/0.10.2.1/kafka_2.12-0.10.2.1.tgz
2.解压安装包
tar -zxvf /export/software/kafka_2.11-0.8.2.2.tgz -C /export/servers/
cd /export/servers/
3. 配置环境变量:
export KAFKA_HOME= /export/servers/kafka/kafka_2.12-0.10.2.1
export PATH=$KAFKA_HOME/bin:$PATH
4.修改kafka配置文件:
#每台服务器的broker.id都不能相同
broker.id=1
host.name=192.168. 25.130
advertised.host.name=192.168.25.130
advertised.port=9092
delete.topic.enable=true
#用来监听链接的端口,生产者和消费者将在此端口建立链接
port=9092
#处理网络请求的线程数量
num.network.threads=3
#处理磁盘io的线程数量
num.io.threads=8
#发送套接字的缓冲区大小
socket.send.buffer.bytes=102400
#接收套接字缓冲区的大小
socket.receive.buffer.bytes=102400
#请求套接字的额缓冲区的大小
socket.request.max.bytes=104857600
#kafka运行日志的存放的路径
log.dirs=/export/servers/logs/kafka
#topic在当前broker上的数量
num.partitions=1
#用来恢复和清理data下数据的线程数量
num.recovery.threads.per.data.dir=1
#segment文件保留的最长时间,超时将被删除
log.retention.hours=168
message.max.byte=5242880
default.replication.factor=2
replica.fetch.max.bytes=5242880
zookeeper.connect=192.168.25.130:2181,192.168.25.131:2181,192.168.25.132:2181
分发到其他机器上,修改id,修改host.name,修改环境变量
sudo scp -r kafka/ storm@storm03:$pwd
5.依次启动kafka:
bin/kafka-server-start.sh config/server.properties
启动报错修稿文件夹权限:
sudo chown -R storm:storm export/
6.kafka常用命令:
- 查看当前服务器中的所有topic:kafka-topics.sh --list --zookeeper zk01:2181
2创建topic:kafka-topics.sh --create --zookeeper zk01:2181 --replication-factor 2 --partitions 4 --topic orderMq
3.通过shell来来生产kafka的消息:kafka-console-producer.sh --broker-list storm01:9092 --topic orderMq
4.通过shell来消费kafka的消息:kafka-console-consumer.sh --zookeeper zk01:2181 --from-beginning --topic orderMq
分布:
终极图片(Mr.Mao的图):
接下来会讲解java操作kafka。。。。。。