kafka
左林右李02
mt实时数据平台研发
展开
-
分钟级延迟kafka和iceberg+hdfs方案成本对比
基于kafka的实时数仓可以达到秒级别延迟(多层,如果是单层可达到ms级别延迟),但是kafka的成本太高,如果要做到近实时的数仓,可用iceberg+hdfs替代kafka。以上这段是很多公司用iceberg替换kafka的原因,通过下面两个问题问清楚成本高在哪Q1:存放同样大小1pb的数据,kafka成本为什么比hdfs高?A1:kafka是按消息队列设计的,为了满足低延迟,而采用了pagecache层(非常激进的使用内存,因为一旦读数据miss cache,会产生磁盘读操作,这种情况下.原创 2021-06-30 17:42:32 · 993 阅读 · 0 评论 -
kafka消息可靠性还有准确性保障
kafka消息可靠性还有准确性保障可靠性&准确性定义kafka怎么保证不丢数据kafka怎么保证恰好一次生产者->broker(幂等)生产者->broker->消费者(事务)可靠性&准确性定义首先弄明白定义不丢数据即为可靠不丢&不重(恰好一次)即为准确性kafka怎么保证不丢数据kafka是多副本的,producer发送给leader副本的消息会被同步到follower副本上,并且kafka会将leader副本和follower尽量分布在不同的机器上原创 2021-05-24 23:52:59 · 247 阅读 · 0 评论 -
kafka使用几点问题
1、kafka事务保证的典型场景举例事务就是把两个以上操作放一起,要么全部生效,要么都失败,kafka的事务是把什么操作放在一起了2、生产者的消息可以撤回吗,保证撤回的这个功能叫什么原创 2021-01-17 22:51:46 · 105 阅读 · 0 评论 -
kafka幂等和事务源码分析
Kafka在生产者和消费者之间提供的语义保证。kafka可以提供多种可能的消息传递保证:最多一次->消息可能会丢失,但是从不重新发送。至少一次->消息永不丢失,但可以重新传递。恰好一次->这是人们真正想要的,每条消息只传递一次,也只能传递一次。Prior to 0.11.0.0, if a producer failed to receive a response indicating that a message was committed, it had little c原创 2020-08-26 20:01:56 · 267 阅读 · 0 评论 -
kafka安全机制
== SSL或SASL概念普及,SASL全称Simple Authentication and Security Layer,是一种用来扩充C/S模式验证能力的机制。SSL(Secure Sockets Layer 安全套接字协议),及其继任者传输层安全(Transport Layer Security,TLS)是为网络通信提供安全及数据完整性的一种安全协议。==在0.9.0.0版中,Kafka社区添加了SSL或SASL对来自客户端(生产者和消费者),其他代理和工具的代理的连接进行身份验证。Kafka支持原创 2020-08-24 17:57:10 · 1125 阅读 · 0 评论 -
kafka当key为null时partition分配策略
以下代码kafka version=0.11.0.2kafka默认的partitioner在key不为null时,则执行Utils.toPositive(Utils.murmur2(keyBytes)) % numPartitions,如果key为null,则调用int nextValue = nextValue(topic);生成一个int类型的value,然后Utils.toPositiv...原创 2020-04-27 20:53:55 · 1106 阅读 · 0 评论 -
kafka造数据
Java代码从csv文件中读取数据,然后通过kafka包中的kafka-console-producer.sh进行写入,代码如下Java代码public class SourceGenerator { private static final long SPEED = 1000; // 每秒1000条 public static void main(String[] a...转载 2020-03-10 14:52:34 · 875 阅读 · 0 评论 -
kafka消费分区策略
前言在 Kafka 实际生产过程中,每个 topic 都会有 多个 partitions。1.多个Partitions有什么好处? 1、多个 partition ,能够对 broker 上的数据进行分片,通过减少消息容量来提升 IO 性能; 2、为了提高消费端的消费能力,一般情况下会通过多个 conusmer 去消费 同一个 topic 中的消息,即实现消费端的负载均衡。接下来详细说...原创 2020-01-06 17:54:07 · 290 阅读 · 0 评论 -
kafka消息存储细节
Kafka部分名词解释如下:Broker:消息中间件处理结点,一个Kafka节点就是一个broker,多个broker可以组成一个Kafka集群。Topic:一类消息,例如page view日志、click日志等都可以以topic的形式存在,Kafka集群能够同时负责多个topic的分发。Partition:topic物理上的分组,一个topic可以分为多个partition,每个parti...转载 2019-12-31 19:54:40 · 269 阅读 · 0 评论