kafka概念,zookeeper和kafka伪分布式部署,软连接与nohub,kafka常用命令

本文详细介绍了Kafka作为分布式流式平台的概念,包括其与Zookeeper的关系、Kafka的组件以及如何进行伪分布式部署。内容涵盖创建与管理topic、启动Kafka使用nohup不挂断、Kafka的常用命令,以及处理删除topic时的注意事项。
摘要由CSDN通过智能技术生成

kafka.apache.org 官网

kafka是啥

分布式流式平台
消息中间件
由scala开发

在这里插入图片描述flume直接对接streaming,如果数据量非常大,streaming会挂
功能:
1.可读写流式数据
2.编写可扩展的流式程序实时处理数据
3.将流式数据安全存储在分布式的,有副本的容错集群

Producer:消息生产者,就是向kafka broker发消息的客户端。
Consumer:消息消费者,向kafka broker取消息的客户端。
broker:每个kafka实例(server),一台kafka服务器就是一个broker,一个集群由多个broker组成,一个broker可以容纳多个topic。
Zookeeper:依赖集群保存meta信息。

flume:1个进程 包括了source,channel,sink

kafka:3个进程 producer(生产者)broker(数据缓存)consumer(消费者)

flume–> kafka(存储) --> spark streaming/flink/结构化流

缓存数据存储在log,是liunx系统文件。

主题 topic

可以理解为就是数据的分类

假如有两个生产业务:
oms订单系统–mysql–>flume–>kafka( omstopic ) -->streaming1

wms仓库系统–mysql–>flume–>kafka( wmstopic ) -->streaming2

kafka创建主题 一般根据业务系统数据处理来划分
最终落在磁盘上就是创建文件夹(liunx系统文件夹)
mkdir omstopic
mkdir wmstopic

一个主题有n个分区,方便并行

1亿行
omstopic_0 100W/s log append追加(得有序) 自身的分区有序的
omstopic_1 200W/s log append追加 自身的分区有序的
omstopic_2 300W/s log append追加 自身的分区有序的
在这里插入图片描述
在这里插入图片描述

部署kafka之前要部署zookeeper

zookeeper-3.4.6-cdh5.7.0

zookeeper伪分布式部署

修改conf下的zoo.cfg文件

zookeeper1

tickTime=2000
dataDir=/home/hadoop/app/zookeeper-1/data
clientPort=2181
server.1=192.168.137.190:2881:3881
server.2=192.168.137.190:2882:3882
server.3=192.168.137.190:2883:3883

zookeeper2

tickTime=2000
dataDir=/home/hadoop/app/zookeeper-2/data
clientPort=2182
server.1=192.168.137.190:2881:3881
server.2=192.168.137.190:2882:3882
server.3=192.168.137.190:2883:3
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值