Kafka
文章平均质量分 88
syc0616
这个作者很懒,什么都没留下…
展开
-
Kafka工作原理和机制
Kafka工作流程1.Kafka将消息按Topic进行分类,每条message由三个属性组成。offset:表示message在当前Partition(分区)中的偏移量,是一个逻辑上的值,唯一确定了Partition中的一条message,可以简单的认为是一个id;MessageSize:表示message内容data的大小;data:message的具体内容;2.在整个kafka架构中,生产者和消费者采用发布和订阅的模式,生产者生产消息,消费者消费消息,它俩各司其职,并且都是面向t原创 2021-06-25 23:14:14 · 2430 阅读 · 0 评论 -
Java操作Kafka
Kafka的介绍Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。Kafka 有如下特性:以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证常数时间复杂度的访问性能。 高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒100K条以上消息的传输。 支持Kafka Server间的消息分区,及分布式消费,同时保证每个Partition内的消息顺序传输。 同时支持离线数据处理和实时数据处理。 Scale out:支持在原创 2021-06-23 16:56:20 · 4575 阅读 · 0 评论 -
kafka一些问题
调优(max.request.size)严重的bug,现象是:1.一执行迁移程序,数据库连接就超时。 2.kafka连接不上,同时查看error.log日志,kafka一直报数据大小超过kafka最大的发送size(kafka max.request.size)。也就是那天根本没有上线成功是失败的。那么我们是怎么处理的呢?下面以yml配置为例:消费数据:properties: max.partition.fetch.bytes...原创 2021-06-04 16:06:35 · 224 阅读 · 0 评论 -
hive-udf-kafka批量数据导入kafka
背景:数据存在hive中,现在需要将数据导入kafka中,为了减少中间环节,使用自定义UDF将hive数据导入到kafka中问题:UDF时对一行的处理,批量导入就会涉及多行的问题,怎么将多行数据放到一个udf中?解决思路:用collect_list函数将多行转成集合,在udf中循环遍历,发送到kafkapackage cn.kobold; import org.apache.hadoop.hive.ql.exec.Description; import org.apache.had.转载 2021-05-29 21:08:03 · 779 阅读 · 0 评论 -
Kafka命令
查看所有topic: kafka-topics.sh --zookeeper hadoop102:2181 --list查看具体的topic : kafka-topics.sh --zookeeper hadoop102:2181 --describe --topic first创建topic : kafka-topics.sh --zookeeper hadoop102:2181 --create --replication-factor 3 --partitio...原创 2020-10-19 21:21:41 · 520 阅读 · 0 评论 -
关于Kafka分区数量的讨论
问题导读:1. Kafka分区多有哪些优点?2. Kafka的分区是不是越多越好?3. Kafka如何确定分区数量?场景描述:Kafka使用分区将topic的消息打散到多个分区分布保存在不同的broker上,实现了producer和consumer消息处理的高吞吐量。Kafka的producer和consumer都可以多线程地并行操作,而每个线程处理的是一个分区的数据。因此分区实际上是调优Kafka并行度的最小单元。对于producer而言,它实际上是用多个线程并发地向不同分区所在的broker发起Sock原创 2020-09-08 15:06:04 · 248 阅读 · 0 评论