一、原理简介
Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。
Kafka [1] 是一种高吞吐量 [2] 的分布式发布订阅消息系统,有如下特性:
通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。
高吞吐量 [2] :即使是非常普通的硬件Kafka也可以支持每秒数百万 [2] 的消息。
支持通过Kafka服务器和消费机集群来分区消息。
支持Hadoop并行数据加载。
Kafka拓扑图
producer:消息生产者,发布消息到kafka集群的终端或服务
broker:kafka集群中包含的服务器,如图所示有两台:10.201.7.187:9093,10.201.7.188:9093
consumer:从kafka集群中消费消息的终端或服务器
consumer group:high-level consumer api中,每个consumer都属于一个consumer group,每条消息只能被consumer group中的一个Consumer消费,但可以被多个consumer group消费
zookeeper:kafka通过zookeeper来存储集群的meta信息,zookeeper包括3个节点10.201.7.197:2182、10.201.7.198:2182、10.201.7.199:2182
ZooKeeper的基本运转流程:
1、选举Leader。
2、同步数据。
3、选举Leader过程中算法有很多,但要达到的选举标准是一致的。
4、Leader要具有最高的执行ID,类似root权限。
5、集群中大多数的机器得到响应并接受选出的Leader。
二、基本操作:
cd /home/test/work/kafka/kafka_2.11-1.0.0
#启动认证
export KAFKA_OPTS=" -Djava.security.auth.login.config=/home/test/work/kafka/kafka_2.11-1.0.0/authority_conf/kafka_client_jaas.conf"
1、查看所有的Topic列表
bin/kafka-topics.sh --list --zookeeper 10.201.7.197:2182,10.201.7.198:2182,10.201.7.199:2182
2、创建一个名为"mytopic"的Topic,
bin/kafka-topics.sh --create --topic mytopic --replication-factor 2 --partitions 3 --zookeeper 10.201.7.197:2182,10.201.7.198:2182,10.201.7.199:2182
3、查看"mytopic"这个Topic的详细信息
bin/kafka-topics.sh --describe --topic mytopic --zookeeper 10.201.7.197:2182,10.201.7.198:2182,10.201.7.199:2182
4、删除topic
bin/kafka-topics.sh --zookeeper 10.201.7.197:2182,10.201.7.198:2182,10.201.7.199:2182 --delete --topic mytopic
测试常用的是:指定topic向kafka发送消息,然后通过消费命令查看
5、发送消息
bin/kafka-console-producer.sh --broker-list 10.201.7.187:9093,10.201.7.188:9093 --producer.config config/producer.properties --topic lc.dsafasdfdf
6、查看发送给kafka的消息,直接使用consumer消费命令即可
其中"–from-beginning"为可选参数,表示要从头消费消息,不带表示从当前时刻消费
bin/kafka-console-consumer.sh --bootstrap-server 10.201.7.187:9093,10.201.7.188:9093,10.201.7.189:9093,10.201.7.190:9093 --topic lc.dsafasdfdf --consumer.config config/consumer.properties --from-beginning