![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
kafka
文章平均质量分 77
大数据面壁者
大数据相关知识分享,框架底层原理机制,生产学习中遇到的相关问题分享,共同学习,共同进步。
展开
-
使用SparkStreaming获取Kafka中的流式数据并指定手动提交offset
概述本篇文章主要有三个示例代码,第一个主要功能是使用sparkstreaming获取kafka中的流式数据,第二个主要解决自动提交偏移量的解决方法:指定检查点,第三个示例是使用手动提交的方式解决自动提交过程中可能出错的问题。还可以指定存储器实现精准一一致性,后续再补上!题外话:sparkstreaming毕竟不是真正的实时计算,底层原理是将数据流离散化为一个一个的微批次,在精准一致消费流式数据上远没有flink方便!!!所以sparkstreamign只建议使用在对实时性要求在秒级查询得场景!!!一、原创 2021-01-28 14:34:23 · 1845 阅读 · 0 评论 -
Kafka之自定义生产者与消费者
Kafka之自定义生产者与消费者一、自定义生产者代码package com.kafka.product;import org.apache.kafka.clients.producer.Callback;import org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.ProducerRecord;import org.apache.kafka.clients.prod原创 2020-12-17 19:00:45 · 788 阅读 · 0 评论 -
Kafka经验之集群机器数与分区数计算
一、 项目经验之Kafka机器数量计算Kafka机器数量(经验公式)=2*(峰值生产速度*副本数/100)+1先拿到峰值生产速度,再根据设定的副本数,就能预估出需要部署Kafka的数量。比如我们的峰值生产速度是50M/s。副本数为2。Kafka机器数量=2*(50*2/100)+ 1=3台二、项目经验值Kafka分区数计算创建一个只有1个分区的topic测试这个topic的producer吞吐量和consumer吞吐量。假设他们的值分别是Tp和Tc,单位可以是MB/s。然后假设总的原创 2020-12-10 10:57:09 · 1628 阅读 · 0 评论 -
Kafka压力测试
Kafka压力测试一、Kafka压测用Kafka官方自带的脚本,对Kafka进行压测。Kafka压测时,可以查看到哪个地方出现了瓶颈**(CPU,内存,网络IO)。一般都是网络IO达到瓶颈**。kafka-consumer-perf-test.shkafka-producer-perf-test.sh二、Kafka Producer压力测试(1)在/opt/module/kafka/bin目录下面有这两个文件[hadoop@hadoop102 kafka]$ bin/kafka-prod原创 2020-12-09 21:29:47 · 565 阅读 · 0 评论 -
大数据之Kafka框架与常用命令操作
大数据之Kafka框架目录大数据之Kafka框架第1章 Kafka概述1.1 消息队列(Message Queue)1.2 定义1.3 Kafka基础架构第2章 Kafka快速入门2.1 Kafka命令行操作第3章 Kafka架构深入3.1 Kafka工作流程及文件存储机制3.2 Kafka生产者3.2.1 分区策略3.2.2 数据可靠性保证3.2.3 follower与leader故障之后的解决方案3.2.4 Exactly Once语义第1章 Kafka概述1.1 消息队列(Message Que原创 2020-12-04 19:48:22 · 374 阅读 · 0 评论