kafka
文章平均质量分 80
L13763338360
这个作者很懒,什么都没留下…
展开
-
kafka限流导致spark写异常
最近上线一个业务,大量数据从hive加工后,写入kaka。规模:200+任务spark任务并发数量:30每个spark任务vocres:20运行一段时间后,抛出异常。原创 2022-10-07 14:28:42 · 1177 阅读 · 0 评论 -
python写带ACL的kafka集群问题
python的第三方kafka包问题,导致写带ACL功能的kafka集群异常。原创 2022-08-11 18:28:26 · 946 阅读 · 0 评论 -
spark写带sasl认证的kafka
spark写带ACL的kafka集群问题原创 2022-08-11 17:06:01 · 1518 阅读 · 2 评论 -
死信队列、重试队列、延迟队列、回退队列
1. 死信队列当一条消息初次消费失败,消息队列会自动进行消息重试;达到最大重试次数后,消息队列不会立刻将消息丢弃,而是将其发送到该消费者对应的特殊队列中,这种正常情况下无法被消费的消息称为死信消息(Dead-Letter Message),存储死信消息的特殊队列称为死信队列(Dead-Letter Queue)。2. 重试队列重试队列其实可以看成是一种回退队列,具体指消费端消费消息失败时,为防止消息无故丢失而重新将消息回滚到Broker中。与回退队列不同的是重试队列一般分成多个重试等级,每个重试原创 2021-12-31 11:45:08 · 2071 阅读 · 0 评论 -
B+树和LSM树对比
B+树B树存储引擎是B树的持久化实现,不仅支持单条记录的增、删、读、改操作,还支持顺序扫描(B+树的叶子节点之间的指针),对应的存储系统就是关系数据库(Mysql等)。B+树将数据完全排序,读数据时很快,但当要修改数据时,就需要将新入数据下面的数据重新排位,特别是当写入的数据排在较高的位置时,需要大量的移位操作才能完成写入。LSM树LSM树(Log-Structured Merge Tree)存储引擎和B树存储引擎一样,同样支持增、删、读、改、顺序扫描操作。而且通过批量存储技术规避磁盘随机写原创 2020-06-23 09:31:25 · 2435 阅读 · 0 评论 -
kafka版本冲突导致taskexecutor启动异常
问题描述本地部署过两套flink环境,分别是1.9.1和1.9.2版本。最近在1.9.1版本下启动flink任务时,taskmanager日志正常,但taskexecutor疯狂打印日志,如下2021-01-23 09:38:41,743 INFO org.apache.kafka.common.utils.AppInfoParser - Kafka version : 0.9.0.12021-01-23 09:38:41,743 INFO org.apa...原创 2021-01-23 10:15:05 · 1014 阅读 · 2 评论 -
python安装kafka客户端
问题现象本地环境python 3.8.3版本pip install kafka,还是无法导入KafkaConsumer(base) leonlai@LEONLAI-MB0 ~ % pythonPython 3.8.3 (default, May 19 2020, 13:54:14)[Clang 10.0.0 ] :: Anaconda, Inc. on darwinType "help", "copyright", "credits" or "license" for more inf.原创 2020-12-30 15:43:02 · 4856 阅读 · 0 评论 -
实时任务数据丢失
1. 背景描述flink实时任务:从kafka集群读取源数据 从redis定期全量拉取用户白名单,然后进行广播 源数据connect白名单数据,源数据根据白名单数据进行过滤处理 过滤处理完后的数据,http推送、写redis、写log等2. 问题分析上线验证的时候,有些数据丢失,而且比较频繁,分析可能原因:kafka源数据丢失。这个有可能,但是小概率事件,不应该那么频繁出现。 redis拉取白名单后广播操作。这个有可能,需要重点排查。 过滤以及数据处理。这个不太可能,可以添加日志原创 2020-09-16 14:46:10 · 393 阅读 · 0 评论 -
kafka-eagle和kafka server版本不一致问题
kafka版本太多,目前最新的已经到2.6.0,但很多线上用的可能还用0.9版本,以往经验,不同版本api存在不少兼容性问题。另外kafka没有实现类似支持es的kibana管理工具,纯靠命令行很蛋疼。在上一家公司的时候,kafka+kafka-eagle配合使用挺方便,对kafka-eagle进行二次开发后,能满足大多数需求。前提是kafka集群和kafka-eagle都是自己搭建的,kafka-eagle依赖的版本与kafka集群一致。现在公司的kafka集群使用的版本是0.9版本,不是我想动就原创 2020-08-12 11:08:28 · 2255 阅读 · 0 评论 -
kafka常见概念和问题
AR(Assigned Repllicas)分区中的所有副本集,AR = ISR + OSRISR(in sync replica):动态维护的一组同步副本,在ISR中有成员存活时,只有这个组的成员才可以成为leader内部保存的为每次提交信息时必须同步的副本(acks = all时)每当leader挂掉时,在ISR集合中选举出一个follower作为leader提供服务当...原创 2020-04-03 18:12:58 · 578 阅读 · 0 评论 -
kafka磁盘占用100%问题跟踪
问题背景kafka版本2.11,kafka集群每个节点挂载5个磁盘,其中有个节点的一磁盘告警,磁盘占用率100%。单个磁盘只有不到4TB空间,其中两个topic已经分别占用了1TB+的空间。解决验证修改数据清理时间,一般就能解决问题retention.ms=86400但是如果是业务批量刷数据,binlog同步到kafka,磁盘很难一下子降下来,减少副本数量和迁移副本也没有作用。如果是业务刷数据导致,要么重新分区,要么重新分配。这次感觉影响不大,什么也没做,静待正常恢复。可过.原创 2020-06-15 12:13:10 · 3070 阅读 · 0 评论 -
kafka选举机制
Kafka是一个高性能,高容错,多副本,可复制的分布式消息系统,整个架构设计中涉及几处选举:控制器(Broker)选主 分区多副本选主 消费组选主控制器(Broker)选举所谓控制器就是一个Borker,在一个kafka集群中,有多个broker节点,但是它们之间需要选举出一个leader,其他的broker充当follower角色。集群中第一个启动的broker会通过在zookeeper中创建临时节点/controller来让自己成为控制器,其他broker启动时也会在zookeeper原创 2020-06-03 20:59:06 · 361 阅读 · 0 评论 -
kafka的可靠性和一致性
可靠性kafka的可靠性主要依赖下面几个级别配置broker 级别:关闭不完全的 Leader 选举,即 unclean.leader.election.enable=false producer 级别:acks=all(或者 request.required.acks=-1),同时发生模式为同步 producer.type=sync topic 级别:设置 replication.factor>=3,并且 min.insync.replicas>=2一致性kafka的一致性主原创 2020-06-03 20:29:20 · 356 阅读 · 0 评论 -
kafka有些分区leader为-1的问题
现象get /kafka/brokers/topics/stock_ticks_test1/partitions/0/state{"controller_epoch":12,"leader":-1,"version":1,"leader_epoch":5,"isr":[5]}原创 2020-04-20 16:40:48 · 3502 阅读 · 1 评论 -
kafka分区的分配策略
kafka分区分配是否均衡会影响到Kafka整体的负载均衡,具体还会牵涉到优先副本等概念。kafka中的分区分配主要有三种:主题的分区分配:为集群制定创建主题时的分区副本分配方案 生产者的分区分配:指为每条消息指定其所要发往的分区 消费者的分区分配:指为消费者指定其可以消费消息的分区1. topic的分区分配创建主题时是否指定replica-assignment、broker.rac...原创 2020-04-17 11:42:26 · 772 阅读 · 0 评论 -
kafka-eagle编译错误
错误提示[ERROR] COMPILATION ERROR :[INFO] -------------------------------------------------------------[ERROR] /Users/leonlai/data/open_source/kafka-eagle-master/kafka-eagle-common/src/main/java/org...原创 2020-04-08 20:02:12 · 462 阅读 · 0 评论 -
kafka消费偏移常见问题
1.kafka维护消费偏移1.1 查看kafka维护的消费组列表./bin/kafka-consumer-groups.sh --new-consumer --bootstrap-server localhost:9092 --list$ ./bin/kafka-consumer-groups.sh --new-consumer --bootstrap-server localhos...原创 2020-04-15 12:52:03 · 5584 阅读 · 2 评论 -
kafka-eagle几个指标含义
1. Preferred Leader默认用Replicas副本集里的第一个副本作为leader。2. Brokers Spread看作broker使用率,如kafka集群9个broker,某topic有7个partition,则broker spread: 7 / 9 = 77%3. Brokers Skewpartition是否存在倾斜,如kafka集群9个broker,某...原创 2020-04-10 14:27:18 · 4153 阅读 · 1 评论 -
Preferred Leader设置
broker重启后可能会有异常,比如Preferred Leader由true变为flase用kafka-eagle监控kafka运行状况,分区3所在的broker异常重启了。截图看看,分区3的Preferred Leader为false,由于Replicas为[1,3,4],leader为3,由于leader为副本3,副本3不是Replicas里的第一个副本(副本1),所以Preferred...原创 2020-04-09 17:53:19 · 2399 阅读 · 0 评论 -
kafka速度快的原因分析
Apache Kafka基准测试:三台普通机器上每秒写入2百万消息。kafka之所以速度快,这里主要从下面几方面进行分析。1. 写数据1.1 顺序写磁盘在顺序磁盘IO,速度可以比内存随机IO更快。Kafka官方给出的测试数据(Raid-5, 7200rpm)顺序I/O: 600MB/s 随机I/O: 100KB/s顺序读写磁盘优势磁盘顺序读写速度超过内存随机读写 ...原创 2020-04-04 11:43:25 · 394 阅读 · 0 评论