自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

永远好奇,无限进步!

详细的记录各种技术的实践过程 包含但不限 Java/Go/Python/JavaScript 等等,从语言到各种框架,飞轮效应坚信不疑者!保持热情,无限进步!

  • 博客(220)
  • 收藏
  • 关注

原创 【2023年度总结】 何其有幸 年岁并进 一元复始 万象更新

多个日夜,深夜清晨,我都在想到底自己适合不适合在这里。当你在技术团队中,每天听到大家谈论的都是房子车子、一地鸡毛时,我常常发呆,我到底想要的是什么?无数新东西,两天一个新工具,三天一个新技术,能让我都感觉到学不动了。随着学会的东西陡增,信息爆炸,也看到了自己无知的一面。早起、拍照、运动、读书、学习、认识了很多厉害的朋友,尝试影响周围的人。最后我想说,人生如棋,无限重复只找到局部最优,不断的寻求变数,下一个也许就是全局最优解。☀️ 何其有幸,年岁并进,长安常安。祝我,祝你,也祝大家。

2024-01-01 10:28:52 2189

原创 大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式

上节研究了Spark Streaming 基础数据源,文件流、Socket流、RDD队列流等内容,基础概念、代码实例等等。本节研究DStream的转换,同时附带一个 黑名单过滤业务的实现案例,包含三种实现的方式。一个功能强大的函数,它可以允许开发者直接操作其内部的RDD,也就是说开发者,可以任意提供一个RDDToRDD的函数,这个函数在数据流每个批次中都被调用,生成一个新的流。

2024-08-24 09:53:43 931

原创 大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流

上节研究了SparkStreaming基础概述、架构概念、编程模型、优缺点概括等内容。本节研究Spark Streaming DStream 文件数据数据流、Socket、RDD队列流等内容。每秒创建一个RDD(RDD存放1-100的整数),Streaming每隔1秒就对数据进行处理,计算RDD中数据除10取余的个数。] 也会只启动一个线程,该线程用于 Receiver Task,此时没有资源处理接受到达的数据。

2024-08-24 09:40:41 700

原创 大数据-98 Spark 集群 Spark Streaming 基础概述 架构概念 执行流程 优缺点

上节研究了SparkSQL的JOIN操作,Broadcast、Shuffle、SQL解析的过程详解,SparkSQL的详细优化思路。本节研究SparkStreaming的接触概述,背景概述、基本概念、架构概念、容错性等等。随着大数据技术的不断发展,人们对于大数据的实时性处理要求也不断提高,传统的MapReduce等批处理框架在某些特定领域,例如实时用户推荐、用户行为分析这些应用场景上逐渐不能满足人们对实时性的需求,因为诞生了一批如 S3、Samza、Storm、Flink等流式分析、实时计算框架。

2024-08-23 09:39:29 1693 3

原创 大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程

上节研究SparkSQL的编码、测试、结果,输入输出,数据源包含Parquet、JSON、CSV、Avro、ORC、Hive、JDBC。本节研究SparkSQL的原理,包含Boradcost、Shuffle、SQL解析和执行的原理。在Spark的物理计划阶段,Spark的Join Selection类会根据Join Hints 策略,Join表的大小、Join是等值Join还是不等值以及参与Join的Key是否可以排序等条件来选择最终的Join策略,最后Spark会利用选择好的Join策略执行最终的计算。

2024-08-23 09:20:50 1087

原创 大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive

上节研究了SparkSQL的核心操作,Action详细解释+测试案例,与Transformation详细解释+测试案例。本节研究SparkSQL的数据源操作,输入与输出数据。df.write.format(“jdbc”).option(“url”, “jdbc:mysql://host/db”).option(“dbtable”, “table”).option(“user”, “username”).option(“password”, “password”).save()

2024-08-22 09:40:31 2969 5

原创 大数据-95 Spark 集群 SparkSQL Action与Transformation操作 详细解释与测试案例

上节研究了SparkSQL中的SparkSession、SparkSQL中的RDD、DataFrame、DataSet,同时研究了三者之间是如何进行互相转换的。本节继续研究SparkSQL,研究当中的Action和Transformation操作,附带详细的解释与测试案例截图。 备注:Dataset默认的存储级别是 MEMEORY_AND_DISK。我们进入 spark-shell 进行测试。启动 Spark-Shell 继续进行测试。保存并上传到服务器上。

2024-08-22 09:13:12 1540 1

原创 大数据-94 Spark 集群 SQL DataFrame & DataSet & RDD 创建与相互转换 SparkSQL

上节研究了SparkSQL,进行了介绍、特点、数据抽象、数据类型的内容。本节研究SparkSQL的DataFrame、DataSet、RDD,三者之间相互转换的内容。将 RDD 转换为 DataFrame 需要提供数据的模式信息。DataSet 是 Spark 1.6 引入的一个新的数据抽象,它结合了 RDD 的强类型优势和 DataFrame 的优化能力。不要刻意区分: DF & DS,DF是一种特殊的DS:ds.transformation => ds。

2024-08-21 09:41:17 2270

原创 大数据-93 Spark 集群 Spark SQL 概述 基本概念 SparkSQL对比 架构 抽象

上节研究了Spark的Standalone、SparkContext、Shuffle的V1和V2的对比等内容。本节研究SparkSQL,SparkSQL的基本概念、对比、架构、抽象。SparkSQL 是 Apache Spark 中用于处理结构化数据的模块。它不仅支持 SQL 查询,还允许你将 SQL 查询与 Spark 的其他强大功能结合使用,如数据流处理和机器学习。SparkSQL 提供了对数据的高度优化的访问方式,可以处理大量的结构化和半结构化数据集。

2024-08-21 09:09:24 1718

原创 大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化

上节研究了Spark程序的优化方案,广播变量、累加器等内容。本节研究SparkRDD原理内容,Standalone详解、ShuffleV1和ShuffleV2版本的详解,最后还有RDD编程优化的手段。SparkContext 是 Spark 应用程序的主控制器,它负责与 Spark 集群的管理节点(Driver)和工作节点(Workers)进行交互。通过 SparkContext,用户可以提交作业、管理 RDD(弹性分布式数据集)和其他数据集,并执行各种操作。

2024-08-20 09:40:50 1979

原创 大数据-91 Spark 集群 RDD 编程-高阶 RDD广播变量 RDD累加器 Spark程序优化

上节研究了RDD的容错机制、分区机制、分区器、自定义分区器等内容。本节研究RDD的广播变量、RDD的累加器,用来对Spark程序进行优化的。有时候需要在多个任务之间共享变量,或者在任务(Task)和 Driver Program 之间共享变量。为了满足这个需求,Spark提供了两种类型的变量。广播变量(broadcast variable)累加器(accumulators)广播变量、累加器的主要作用是为了优化Spark程序。

2024-08-20 09:15:35 1921

原创 大数据-90 Spark 集群 RDD 编程-高阶 RDD容错机制、RDD的分区、自定义分区器(Scala编写)、RDD创建方式

上节研究了Spark的RDD的依赖关系、重回WordCount、RDD持久化、RDD缓存。本节研究Spark的RDD的 容错机制、RDD的分区,用Scala实现自定义的分区器。Spark允许用户通过自定义的Partitioner对象,灵活的来控制RDD的分区方式。分区 0 < 100100

2024-08-19 09:32:22 2224

原创 大数据-89 Spark 集群 RDD 编程-高阶 编写代码、RDD依赖关系、RDD持久化/缓存

上节研究了Spark的RDD的Super Word Count程序,实现了将计算结果写入到MySQL中。本节研究Spark的高阶编码、RDD的依赖关系,RDD的持久化、RDD的缓存机制。RDD任务切分中间分为:Driver program、Job、Stage(TaskSet) 和 Task。Driver program:初始化一个SparkContext即生成一个Spark应用。Job:一个Action算子就会生成一个Job。

2024-08-19 09:09:43 2182

原创 大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL

上节完成了Spark的案例:计算圆周率、计算共同好友的功能,并且上传服务器运行。本节继续编写Spark的案例,Scala实现 Super WordCount 可以写入MySQL。优化后使用 foreachPartition 保存数据,一个分区创建一个链接:cache RDD。我们在 foreach 中保存了数据,此时需要创建大量的MySQL连接,效率是比较低的。先实现到MySQL保存前的内容,我们需要先编写测试一下我们的代码是否正确。我们新建一个数据库,也要新建一个数据表。

2024-08-17 09:43:40 1802

原创 大数据-87 Spark 集群 案例学习 Spark Scala 案例 手写计算圆周率、计算共同好友

上节完成了Spark WordCount的学习,并用Scala 和 Java 分别编写了 WordCount的计算程序。本节研究Spark的案例,手写计算圆周率和寻找计算共同好友。main 方法是 Scala 应用程序的入口点,类似于 Java 中的 main 方法。这段代码用来处理传递给程序的第一个参数,如果有参数传递过来,则将其转换为整数,作为分片数 slices。这意味着只会记录警告级别及以上的日志信息,减少不必要的日志输出。

2024-08-17 09:39:40 2006

原创 大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方

上节研究了Spark RDD操作方式Action、Key-ValueRDD的操作,详细解释与案例。本节用Scala、Java语言,编写WordCount程序,并编译打包到服务器上运行。在这个过程中,我不仅加深了对Spark生态系统的理解,还亲身体验了大数据处理的核心思想:分而治之。通过编写和运行这个程序,我意识到,尽管代码本身很简单,但其背后的概念却揭示了大数据处理的复杂性与挑战性。这使我更加意识到,在大数据的世界里,性能优化和资源管理是永恒的主题。

2024-08-16 10:10:49 3476

原创 大数据-85 Spark 集群 RDD创建 RDD-Action Key-Value RDD详解 RDD的文件输入输出

上节完成了SparkRDD的创建,从集合、文件、RDD创建 RDD的方式,并且详细介绍了 Transformation的操作内容。本节研究Spar的RDD的Action、Key-Value RDD。都需要先把文件当做普通文件来读取数据,然后通过将每一行进行解析实现对CSV的提取。通过 objectFile 接收一个路径,读取对象文件,返回对应的RDD,也可以通过调用saveAsObjectFile() 实现对对象文件的输出。

2024-08-16 09:54:52 3025

原创 大数据-84 Spark 集群 RDD创建 RDD-Transformation操作算子 详解

上节Spark的RDD介绍、RDD特点、Spark编程模型。本节研究SparkRDD的创建,RDD-Transformation操作算子,并附带测试案例,详细过程。转换得到RDD是惰性求值,也就是说,整个转换过程只有记录了转换的轨迹,并不会发生真正的计算,只有遇到Action操作时,才会发生真正的计算,开始从学院关系(lineage)源头开始,进行物理的转换操作。SparkContext是编写Spark程序用到的第一个类,是Spark的主要入口点,它负责和整个集群的交互。

2024-08-15 09:20:19 3174

原创 大数据-83 Spark 集群 RDD编程简介 RDD特点 Spark编程模型介绍

上节完成了Spark集群环境部署和配置,并且启动SparkShell。本节研究RDD编程,RDD编程简介,RDD创建、Spark编程模型的简介。RDD是Spark的基石,是实现Spark数据处理的核心现象。RDD是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD(Resilient Distributed Dataset)是Spark中的核心概念,它是一个容错、可以并行执行的分布式数据集。

2024-08-15 08:55:15 2555

原创 大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS

上节完成了Spark的环境配置,集群配置,并且通过分发把服务分发到了别的服务器上等内容。本节我们对集群进行启动和测试,需要HDFS和Spark的环境。这里Spark提供了一个官方的HelloWorld(前提你配置好环境变量,不然你需要到指定目录执行)我们通过查看 h121 的日志,可以看到是 8081 的端口(我的8080好像是被占用了)这个在Spark的目录下的 logs下,如果你也遇到了无法访问,可以看看这个logs。

2024-08-14 09:31:31 2143

原创 大数据-81 Spark 安装配置环境 集群环境配置 超详细 三台云服务器

上节完成了Spark的介绍、Spark特点、Spark部署模式、系统架构。本节我们在三台云服务器上实机部署配置Spark的集群环境,包含环境变量与配置等内容。使用我们之前编写的 rsync-script 工具。当然你也可以每台都配置一次也行,只要保证环境一致即可。(之前Hadoop等都使用过,如果你没有,你可以用复制或者别的方式)页面如下,为了保证稳定和学习的方便,我用了比较老的版本:2.4.5。每天机器都需要配置环境变量!配置完的结果,记得刷新环境变量。

2024-08-14 09:01:11 4132 1

原创 大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比

上节我们终于到了Kafka最后一个内容,集群的可视化方案,JConsole、Kafka Eagle等内容,同时用JavaAPI获得监控指标。本节研究Spark的简要概述,系统架构、部署模式、与MapReduce进行对比。MapReduce 昨天Spark 今天Flink 未来MapReduce和Spark都是类MR的处理引擎,底层原理非常相似。

2024-08-13 09:15:08 4863 3

原创 大数据-79 Kafka 集群模式 集群监控方案 JavaAPI获取集群指标 可视化监控集群方案: jconsole、Kafka Eagle

上节完成了Kafka集群的搭建和分析Kafka集群的应用场景,并且完成了实机的搭建。本节我们研究Kafka集群的可视化方案,JavaAPI获取集群指标、JConsole、Kafka Eagle等可视化方案。Kafka使用Yammer Metrics在服务器和Scala客户端中报告指标,Java客户端使用Kafka Metrics,它是一种内置的度量标准注册表,可最大程度的减少拉入客户端应用程序的传递依赖项。两者都通过JMX公开指标,并且可以配置为使用可插拔的统计报告器报告统计信息,以连接到你的监控系统中。

2024-08-13 08:57:43 2771

原创 大数据-78 Kafka 集群模式 集群的应用场景与Kafka集群的搭建 三台云服务器

上节研究了Kafka的延时队列、重试队列。本节进入Kafka最后的环节,Kafka集群模式的搭建。多节点的Kafka集群搭建。Kafka的需要用户在由多个阶段组成的处理管道中处理数据,其中原始输入数据从Kafka主题中使用,然后进行汇总,充实或以其他方式转换为新主题,以供进一步使用或后续处理。Kafka提取文件的详细信息,并以日志的形式更清晰的抽象日志或事件数据,这允许较低的延迟的处理,并更容易支持多个数据源和分布式数据消耗。

2024-08-12 09:30:19 4634 1

原创 大数据-77 Kafka 高级特性-稳定性-延时队列、重试队列 概念学习 JavaAPI实现

上节完成了Kafka高级特性-稳定性-消息重复和消息丢失的问题,生产者阶段丢失导致的消息重复。本节我们继续研究,延时队列、重试队列的概念,以及JavaAPI的实现。 由超时触发或外部事件触发而被执行的,超时触发很好理解,就要等到超时时间之后触发第二次读取日志文件的操作。如果是Follower副本的延时拉取,它的外部事件就是消息追加到了Leader副本的本地日志文件中,如果是消费者客户端的延时拉取,它的外部事件可以简单的理解为HW的增长。

2024-08-12 09:15:40 2275

原创 大数据-76 Kafka 高级特性 稳定性-消费重复 生产者、Broker、消费者 导致的重复消费问题

上节研究了Kafka的稳定性-一致性保证,而且研究了LEO和HW,以及Leader和Follower何时更新LEO和HW。本节研究消费消息重复,出现数据重复的环节有:生产者阶段、Broker阶段、消费者阶段。以及给出对应阶段的解决方案。

2024-08-10 09:11:09 4661 1

原创 大数据-75 Kafka 高级特性 稳定性-一致性保证 LogAndOffset(LEO) HightWatermark(HW) 水位/水印

上节Kafka高级特性 稳定性,研究了Kafka控制器的Broker选举,Kafka可靠性的副本复制、失效副本、副本滞后等问题。本节我们研究Kafka稳定性的一致性问题,设计到LEO和HW水位水印的问题。LogAndLeader端的Follower的LEO更新发生在Leader处理Follower fetch请求的时候,一旦Leader接收到Follower发送的fetch请求,它先从Log中读取相应的数据,给Follower返回数据前,先更新Follower的LEO。

2024-08-10 09:01:25 2719

原创 大数据-74 Kafka 高级特性 稳定性 - 控制器、可靠性 副本复制、失效副本、副本滞后 多图一篇详解

上节研究了Kafka的事务相关配置、幂等性、Java实现仅保证一次发送的方案等等。本节我们研究Kafka稳定性-控制器、可靠性 副本复制、失效副本、副本滞后内容。Kafka集群包含若干个Broker,broker.id 指定broker的编号,编号不要重复。Kafka集群上创建的主题,包含若干个分区。每个分区包含若干个副本,副本因子包括了Follower副本和Leader副本。副本又分为ISR(同步副本分区)和OSR(非同步副本分区)

2024-08-09 09:33:11 3383

原创 大数据-73 Kafka 高级特性 稳定性-事务 相关配置 事务操作Java 幂等性 仅一次发送

上节研究Kafka事务配置,事务语义、事务协调器等内容,本节继续研究Kafka高级事务,事务操作Java调用,实现生产者仅发送一次消息。只要Producer生产消息,这种场景需要事务的介入消费消息和生产消息并存,比如Consumer&Producer模式,这种场景是一般Kafka项目中比较常见的模式,需要事务介入。只有Consumer消费消息,这种操作在实际项目中意义不大,和手动CommitOffets的结果一样,而且这种场景不是事务的引入的目的。

2024-08-09 09:22:09 2772

原创 大数据-72 Kafka 高级特性 稳定性-事务 (概念多枯燥) 定义、概览、组、协调器、流程、中止、失败

上节完成了Kafka高级特性的磁盘存储部分,涉及到零拷贝、磁盘文件传输、JavaNIO、mmap、sendfile等概念信息。本节继续Kafka高级特性:事务(概念较多很枯燥。生产者可以显式的发起事务会话,在这些会话中发送(事务)消息,并提交或中止事务。原子性:消费者的应用程序不应暴露于未提交的消息中持久性:Broker不能丢失任何已提交的事务排序:事务消费者应在每个分区中以原始顺序查看事务消息交织。

2024-08-08 10:13:33 2579

原创 大数据-71 Kafka 高级特性 物理存储 磁盘存储特性 如零拷贝、页缓存、mmp、sendfile

上节完成了Kafka日志删除相关,如日志清理、日志压缩,包含大小、事件、偏移量。本节研究Kafka的磁盘存储特性,零拷贝、页缓存、mmap、sendfile。将磁盘文件映射到内存,用户通过修改内存就能修改磁盘文件。Kafka在设计时采用了文件追加的方式来写入消息,即只能在日志文件的尾部追加新的消息,并且也不允许修改已写入的消息,这种方式属于典型的顺序写盘的操作,所以就算Kafka使用磁盘作为存储介质,也能承载非常大的吞吐量。

2024-08-08 10:02:31 2391

原创 大数据-70 Kafka 高级特性 物理存储 日志存储 日志清理: 日志删除与日志压缩

上节完成Kafka的日志索引文件的解析,包含物理存储、消息偏移、偏移量存储的内容。本节研究物理存储中日志存储的:日志清理中的日志删除和日志压缩的方式。比如,我们在Spark、Flink中做实时计算时,需要在内存中维护一些数据,这些数据可能是通过聚合了一天或者一周的日志得到的,这些数据一旦由于异常(内存、网络、硬盘)崩溃了,从头开始计算是需要很长时间的。

2024-08-07 09:08:02 6413 3

原创 大数据-69 Kafka 高级特性 物理存储 实机查看分析 日志存储一篇详解

上节我们研究了Kafka的物理存储,日志存储的概述,日志切分文件,索引切分文件。本节继续研究Kafka的物理存储,日志存储模块,实机查看分析。如果是CreateTime则无法保证顺序。在偏移量索引文件索引中,索引数据都是顺序记录Offset,但时间戳索引文件中每个追加的索引时间戳必须大于之前追加的索引项,否则不予追加。

2024-08-07 08:58:57 2766

原创 大数据-68 Kafka 高级特性 物理存储 日志存储概述

上节研究Kafka的分区分配策略,Range、RoundRobin、Sticky、自定义策略。本来研究Kafka物理存储,日志存储的概述内容。消息是以主题为单位进行归类,各个主题之间是彼此独立的,互不影响。每个主题又可以分为一个或多个分区每个分区各自存在一个记录消息数据的日志文件我这里的情况是:有一些没展示全的,比如倒数的那几个,是Kafka中现在有的Topic。

2024-08-06 09:24:46 2260

原创 大数据-67 Kafka 高级特性 分区 分配策略 Ranger、RoundRobin、Sticky、自定义分区器

上节Kafka高级特性分区-副本数量调整,业务中遇到副本调整需求,但是无法直接修改,需要JSON+脚本的方式来进行配置。本节分区-分区策略,有Ranger、RoundRobin、Sticky等策略,最后实现自定义分区器。需要实现org.apache.kafka.clients.consumer.internals.PartitionAssignor 接口Subscription:用来表示消费者的订阅信息,类中有两个属性:topics、userData,分别表示消费者所订阅Topic列表和用户自定义信息。

2024-08-06 09:09:33 3508 1

原创 大数据-66 Kafka 高级特性 分区Partition 副本因子Replication Factor replicas动态修改 线上动态修改副本数

上节完成了Kafka宕机恢复后,Leader不会重新分配,需要我们用脚本重新恢复。本节对Kafka集群的副本因子进行修改,现实业务中我们会遇到:当Kafka集群中有一个节点宕机了,比如Broker0、Broker1中,Broker1宕机了,此时由于我们配置了副本数为2,Kafka集群正常工作,提供生产和消费能力。但是当我们修好Broker1之后,恢复宕机之后,发现Leader都是Broker0,不会再平衡到Broker1上,所以我们需要用脚本来让Kafka集群进行自动再平衡。

2024-08-05 10:10:20 2873

原创 大数据-65 Kafka 高级特性 分区 Broker自动再平衡 ISR 副本 宕机恢复再重平衡 实测

上节完成模拟Kafka集群中的分区重新分配,当线上Kafka节点不够用时,新增节点后,分区不会分配,需要脚本来重新分配。本节我们继续研究分区中Broker的自动再平衡,当Broker宕机再恢复后,分区也不会恢复,需要脚本进行自动再重平衡。

2024-08-05 09:43:55 2850

原创 大数据-64 Kafka 高级特性 分区Partition 分区重新分配 实机实测重分配

上节研究Kafka的分区相关副本机制、同步节点、宕机恢复、Leader选举过程等。本节上机实际测试 分区重新分配的 全流程过程。向已经部署好的Kafka集群里添加机器,我们需要从已经部署好的Kafka节点中复制相应的配置文件,然后把里边的 BrokerID 修改为全局唯一的,最后启动这个节点即可让它加入到现有的Kafka集群中。此时我们来到 h122 用如下的命令启动Kafka,我启动的是临时的,如果你有需要,请用守护方式启动。

2024-08-03 10:01:15 2302

原创 大数据-63 Kafka 高级特性 分区 副本机制 宕机恢复 Leader选举

上节完成kafka-topics基本参数和使用,涉及创建、查看、修改等等内容。本节学习Kafka的高级特性:分区,包含副本机制、宕机恢复、Leader的选举。副本之间的关系并不是固定不变的,在Leader所在的Broker发生故障的时候,就需要进行分区的Leader副本和Follower副本之间的切换,需要选举Leader副本。如果某个分区所在的服务器出了问题导致不可用,Kafka会从该分区的其他副本中选择一个成为新的Leader,之后所有的读写就会转移到这个新的Leader上。

2024-08-03 09:25:12 1931

原创 大数据-62 Kafka 高级特性 主题 kafka-topics相关操作参数 KafkaAdminClient 偏移量管理

上节我们完成了Kafka高级特性:主题与分区、自定义反序列化、拦截器、位移提交等内容。本节我们继续 Kafka高级特性-主题 kafka-topics KafkaAdminClient 偏移量管理。创建主题:createTopics删除主题:deleteTopics列出所有主题:listTopics查询主题:describeTopics查询集群:describeCluster查询配置:describeConfigs修改配置:alterConfigs修改副本的日志目录

2024-08-02 09:09:04 1957

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除