
大数据/消息队列(Kafka)
文章平均质量分 77
消息队列:Kafaka、Pulsar
u013250861
这个作者很懒,什么都没留下…
展开
-
大数据-消息队列:Kafka【分布式的基于push/pull模式的消息队列(Message Queue);在流式计算中,Kafka一般用来缓存数据,Spark通过消费Kafka的数据进行计算】
大数据-Kafka:消息队列(MQ/Message Queue)【RabbitMQ、ActiveMQ、RocketMQ、Kafka】之 Kafka原创 2021-01-15 00:14:22 · 534 阅读 · 0 评论 -
大数据-消息队列-Kafka(一):概述【分布式;用于缓存数据;基于发布/订阅模式】【“消息”会持久化到磁盘】【用于大数据实时处理领域】【类似于“快递驿站”】
目前企业中比较常见的消息队列产品主要有Kafka、ActiveMQ、RabbitMQ、RocketMQ等。② 在JavaEE开发中主要采用ActiveMQ、RabbitMQ、RocketMQ1. 传统的消费队列的主要应用场景有:缓存/削峰(缓冲)、解耦(少依赖)、异步通信(不必要及时处理)。 消息队列主要分为两种模式:点对点模式(一个生产者对口一个消费者)和发布/订阅模式(一对多)。1)Producer :消息生产者,就是向kafka broker发消息的客户端;2)Consumer :消息消费者,向ka原创 2023-04-02 16:54:38 · 200 阅读 · 0 评论 -
大数据-消息队列-Kafka(二):安装部署
分别在hadoop103和hadoop104上修改配置文件server.properties中。5. 修改config目录下的配置文件server.properties内容如下。4. 进入到/opt/module目录下,修改解压包名为kafka。2. 上传安装包到102的/opt/software目录下。自动帮你创建,可以配置多个磁盘路径,路径与路径之间可以用。3. 解压安装包到/opt/module/目录下。的全局唯一编号,不能重复,只能是数字。存放的路径,路径不需要提前创建,原创 2023-04-02 17:13:38 · 102 阅读 · 0 评论 -
大数据-消息队列-Kafka(三):群起脚本【kafka.sh】【启动:先Zookeeper,再Kafka;关闭:先Kafka,在Zookeeper】
①在/home/wyr/bin目录下创建kafka.sh文件。将脚本复制到/usr/bin/中,以便全局调用。修改脚本 kafka.sh 具有执行权限。在该文件中编写如下代码。原创 2023-04-02 19:02:11 · 312 阅读 · 0 评论 -
大数据-消息队列-Kafka(四):Kafka命令行操作【Topic(主题)、Producer(生产者)、Consumer(消费者)】
连接kafka Broker主机名称和端口号。4. 创建一个主题名为first的topic。连接kafka Broker主机名称和端口号。连接kafka Broker主机名称和端口号。3. 查看当前服务器中的所有topic。1. 查看操作主题命令需要的参数。注意:分区数只能增加,不能减少。7. 再次查看Topic的详情。1. 查看命令行生产者的参数。1. 查看命令行消费者的参数。思考:再次查看当前kafka。5. 查看Topic的详情。2. 重要的参数如下。操作的topic名称。操作的topic名称。原创 2023-04-02 20:37:52 · 387 阅读 · 0 评论 -
大数据-消息队列-Kafka(五):Producer(生产者)【发送消息采用的是异步发送】【两个线程:main线程和Sender线程】【线程共享变量:双端队列RecordAccumulator】
1. 生产环境中,我们往往需要更加自由的分区需求,我们可以自定义分区器。原创 2023-04-03 00:05:28 · 474 阅读 · 1 评论 -
大数据-消息队列-Kafka(六):Kafka Broker(集群)
follower发生故障后会被临时踢出ISR,待该follower恢复后,follower会读取本地磁盘记录的上次的HW,并将log文件高于HW的部分截取掉(HW之前每个节点都有,故安全),从HW开始向leader进行同步。leader发生故障之后,会从ISR中选出一个新的leader,之后,为保证多个副本之间的数据一致性,其余的follower会先将各自的log文件。Kafka中log日志是分成一块块存储的,此配置是指log日志划分 成块的大小,默认值1G。每隔多久,刷数据到磁盘,默认是null。原创 2023-04-04 22:39:14 · 445 阅读 · 0 评论 -
大数据-消息队列-Kafka(七):Consumer(消费者)
不足之处是,如果kafka没有数据,消费者可能会陷入循环中,一直返回空数据。针对这一点,Kafka的消费者在消费数据时会传入一个时长参数timeout,如果当前没有数据可供消费,consumer会等待一段时间之后再返回,这段时长即为timeout。如果服务器端一批次的数据大于该值(50m)仍然可以拉取回来这批数据,因此,这不是一个绝对最大值。它的目标是尽可能以最快速度传递消息,但是这样很容易造成consumer来不及处理消息,典型的表现就是拒绝服务以及网络拥塞。消费者处理消息的最大时长,默认是5分钟。原创 2023-04-04 20:16:08 · 294 阅读 · 0 评论 -
大数据-消息队列-Kafka(八):Kafka-Eagle监控【监控Kafka集群的整体运行情况,在生产环境中经常使用】
Kafka-Eagle框架可以监控Kafka集群的整体运行情况,在生产环境中经常使用。原创 2023-04-04 22:55:46 · 247 阅读 · 0 评论 -
Flume、Kafka区别:【Flume:消息采集系统,主要用于日志收集】【Kafka:消息缓存系统,通用型系统】
Flume更趋向于消息采集系统,Kafka更趋向于消息缓存系统。kafka:目前项目中主要是用来做消息推送中间件,消息的处理完全由业务方自己定义,请求频次单机吞吐量轻轻松松50W+/s,数据在集群不全挂的情况下是不会丢数据,消费也很灵活,可以指定分区和offset,可以当做成一个数据库。flume:用来做数据采集和落地,目前使用的是flume-ng,流程是source(kafka)->channel->hdfs 相比较kafka比较轻量级 ,就是一个数据的流通管道,当一个flume实例挂了 数据会丢失。原创 2023-03-05 22:51:43 · 967 阅读 · 0 评论