及未来-CSDN博客

Checkpoint是Flink的另一种状态快照机制，它比Savepoint更为频繁，提供了细粒度的状态恢复点。通过配置Checkpoint，Flink会周期性地自动保存作业的状态。如果作业失败，Flink可以根据最后一个成功的Checkpoint自动重启并恢复状态，从而达到“恰好一次”或“至少一次”的处理语义。要启用Checkpoint，需要在作业配置中开启Checkpoint并设置Checkpoint的参数，如间隔时间、模式等。类似，是拿来保存当时状态的一个机制。以便后续可以从这个状态恢复执行。

2024-05-21 23:49:22 293

原创【大数据面试题】30 Kafka如何保证数据可靠性

数据可靠性一直是各个技术都需要的一个特性。不能在使用过程中数据被错误消费，多消费少消费，或者直接漏了数据。那就来看看热门消息队列 Kafka 在数据可靠性方面做了些什么。

2024-05-17 22:57:52 366

原创【大数据面试题】29 Kafka 为什么读写那么快？

Kafka是热门的消息队列组件，在大数据中十分常见。Kafka的是其成为热门组件的重要原因。那么就来聊聊，Kafka为什么那么快。

2024-05-16 17:55:07 213

原创【大数据面试题】28 解释一下大数据的 5V 特性是什么？

一步一个脚印，一天一道面试题。搞点简单的。

2024-05-15 23:14:44 355

原创【大数据面试题】27 讲下Doris的物化视图

物化视图，顾名思义，是将一个查询的结果预先计算并存储为物理表的形式。这意味着，原本需要在运行时动态执行的复杂查询，现在变成了直接从已经计算好的结果表中读取数据，极大地提升了查询速度。它是一种典型的“空间换时间”的策略，牺牲一定的存储空间来换取查询性能的显著提升。

2024-05-15 00:00:36 438

原创【大数据面试题】26 解释一下数据湖（Data Lake）的概念，以及它与数据仓库的区别

数据湖（Data Lake）是一种集中存储企业所有原始数据的体系结构，它允许数据以原始、未经过加工的格式被收集并存储。这种存储方式通常不预先定义数据的结构，而是保留数据的原始形态，包括结构化数据（如关系数据库中的表格数据）、半结构化数据（如CSV、日志文件、XML、JSON）和非结构化数据（如文本文件、图像、音频、视频等）。数据湖的核心价值在于它提供了一个灵活的环境，让企业能够在需要时对数据进行分析、处理和转化，适应各种不同的业务需求和分析场景。

2024-05-11 10:00:00 340

原创【大数据面试题】25 说说你对 Doris 的理解

Doris 能很好地与Hadoop、Spark等大数据生态系统集成，也支持与各类BI工具对接，便于数据可视化和报告生成。：MPP 架构和列式存储设计让 Doris 能够处理高并发的查询请求，即使在数据量庞大的情况下也能保持查询的高效性。其定位更倾向于提供一种统一的分析平台，兼顾实时性和大规模数据处理能力，满足企业多样化的数据分析需求。Doris 既可以作为实时数仓使用，支持企业对数据的实时监控和决策需求，也可以作为离线分析的数据仓库，处理历史数据的深度分析和挖掘。，也就是说，对实时导入的数据会更友好。

2024-05-10 08:30:00 552

原创【大数据面试题】024 Spark 3 升级了些什么？

一步一个脚印，一天一道面试题近期工作时有用到 Spark 2 升级 Spark 3，解决问题的情况。任务原本是运行小时后，升级到Spark 3后，任务运行小时，并且。平时用 Spark 3 用的也多，就当记录一下。

2024-04-21 00:56:26 334 1

原创【大数据面试题】023 Spark RDD 是什么？

是整个 Spark 的基础，核心概念。是我们用Spark 时的基础数据单位。这个概念是为了让我们少去考虑数据的大数据量下的并行计算问题。简化我们需要的操作量。：在下面的示例代码中，rdd1 是不会变的，而我们 rdd.map 后，会得到一个。：由于是分布式的，所以可以做到每个节点都计算一部分数据，最后分别输出或汇总输出。： Spark 有多个节点，往往不是单节点运行，是集群中多个节点里都有数据。一步一个脚印，一天一道面试题。我是近未来，祝你变得更强！首先，RDD 全称是。

2024-04-09 23:07:49 359

原创【大数据面试题】022 完成比完美更重要

我觉得简单的又有些不想写，复杂的又懒得写，所以拖延下来了。但完成比完美更重要，草草发一个也比迟迟不开始好很多。一步一个脚印，一天一道面试题。我是及未来，祝你变得更强！

2024-04-03 10:15:24 426 2

原创【大数据面试题】021 Spark 开发过程中遇到过那些报错？

1.看是否数据倾斜单独优化；2.调整到资源充裕的时间段 3.增加资源；时有些 excutor，网络等问题导致失败。一般数据倾斜的概率不高。日常遇到挺多，但没文字记录下来，临时就想到这些，欢迎留言补充。读取还不会报错，但如果用这张表里读的数据去进行下一步的。（程序）被外部应用干掉了，听起来挺奇葩的，但大多就是。这种是因为那个表的那个分区里有脏数据。报错也是一个不错的帮助，来总结一下吧。清理错误数据，可以考虑删除文件，或。一步一个脚印，一天一道面试题。我是近未来，祝你变得更强。写入，就会发生报错。

2024-03-25 08:30:00 299

原创【大数据面试题】020 你使用过哪些大数据平台？有什么区别？

一步一个脚印，一天一道面试题。因为大数据早已脱离了当初只要搭建集群就算成功的蛮荒时代。为了各个大数据组件使用方便，国内的大企业都用上了大数据平台，这些平台会集成，图形化管理，升级各类组件。比如你可以图表的形式去了解集群状态，存储使用等。非常方便。然后现在的面试也很多会问有没有使用到公司在用的大数据平台。那这次也就简单说说咱们国内相对常见的大数据平台吧。简单总结：免费的，Apache 开源的大数据平台，2022年1月停止维护。实际使用：Ambari作为一款开源的集群管理工具，在Hadoop生态系统中被广

2024-03-23 18:35:54 570 2

原创【大数据面试题】019 Hive是怎么管理元数据的？说说你的理解

一步一个脚印，一天一道面试题。首先，？是表的属性数据。比如建表语句，是哪个数据库下的，有哪些字段，数据存放到哪个位置。这些元数据很重要，但相对较碎，较小，不太适合存放在HDFS上。所以一般。

2024-03-21 08:53:18 471

原创【随笔】学习方法很多，你觉得哪个最有效？

一步一个脚印，今天先不写面试题哈哈哈。今天突然有感，想写一写感想。即使是在AI开始大爆发的时代，我认为适当的学习，提升自己能力是一部分，是功利的一部分，抛开这部分，多读读书📚 完善自己的内心，让自己过得更自在，内心更完整。这是我认为非常棒的一件事。也是给自己一个小总结。那不管是功利性学习，或是非功利的学习，我们总会遇到一些不理解，难学的地方。我们有什么好方法去解决呢？我刷到过非常多讲学习方法的学习视频，文章，但目前个人认为最好用的方法就两个。

2024-03-19 08:35:49 608

原创【大数据面试题】 018 数据仓库的分层了解吗？说说你的理解

数据仓库是我们大数据十分重要的组成部分，也能在这套规范里找到处理海量数据的智慧。（虽然很多公司即使用了数据仓库后还是有很多效率，浪费之类的问题，但那就是数据治理的后话了）我是 jiweilai，祝你变的更强！

2024-03-18 22:49:29 557

原创【大数据面试题】017 Kafka消费数据积压遇到过吗？怎么处理的

如果是下游的数据处理不及时：提高每批次拉取的数量。批次拉取数据过少（拉取数据/处理时间<生产速度），使处理的数据小于生产的数据，也会造成数据积压。如果是Kafka消费能力不足，则可以考虑增加Topic的分区数，并且同时提升消费组的消费者数量，消费者数=分区数。许多时候，Kafka消费积压是消费的不及时。可能需要看看消费者组件，比如。我是 Jiweilai，祝你变得更强！一步一个脚印，一天一道面试题。2.增加每批次拉取数量。3.优化消费者代码。

2024-03-18 17:23:06 414

原创【大数据面试题】016 Kafka 的分区可以变更吗？为什么？

所以讨论下来减少分区真是费力不讨好的事，而且忽然在想，好像没什么场景是一定要减少分区的。，原因想想也挺简单的，减少了分区数后，被减少的分区的数据应该怎么处理？命令对 Kafka 增加 Kafka 的分区数据。是一个主流的分布式消息队列。我是 Jiweilai，祝你变得更强！偏移量，记录数据消费到哪个位置了。一天一个脚印，一天一道面试题。

2024-03-16 13:14:03 467

原创【大数据面试题】015 Kafka的ISR，OSR，AR分别是什么

Kafka 作为一个天生支持分布式的消息队列，为了数据的可靠性，很自然支持了** 备份 Replica**。而消息队列的备份需要及时的跟leader副本保持一致，否则数据不是最新的，对数据队列来说也是不能用的。

2024-03-15 19:30:19 544

原创【大数据面试题】014 Flink CDC 用过吗，请简要描述

一步一个脚印，一天一道面试题。

2024-03-15 08:14:27 811

原创【大数据面试题】013 Spark 与 Presto 区别与比较

对小型查询和交互式分析的性能可能不如专门的查询引擎；：Presto采用内存计算和并行执行机制，能够快速处理大规模数据查询，适合高性能的交互式查询。：支持多种数据源和 ANSI SQL 标准，可以进行跨源的复杂查询和分析操作。：采用分布式共享无状态计算模型，具备高可伸缩性和容错性，适合大规模数据处理。：具备动态优化器功能，能够根据查询特性选择最佳执行计划，提升查询性能。：由于内存计算和并行执行，可能消耗较多的资源，需要合理规划和管理资源。：管理和配置相对复杂，需要一定的专业知识和经验。

2024-03-12 08:30:00 701

原创【错误处理】【Hive】【Spark】ERROR FileFormatwriter: Aborting job null.

如果怎么都使用不了那张表的话，大概率是那张表有脏数据，导致整张表无法正常使用。近日，使用 Spark 在读写。清除该表数据，再重新插入数据。

2024-02-29 21:56:38 973

原创【大数据面试题】012 谈谈 Hive 性能优化常用的方法

合理的并行度设置可以更好的利用集群性能，否则可能会“有力使不出”或“杀鸡用牛刀”的情况。：尽量在本地节点做更多的操作，减少网络传输等开销，比如使用 mapjoin；：Parquet，ORC 是可以减少 I/O ，网络传输速率等的。收集表的信息，可以让优化器更可能做出更好的查询计划；：一般不要使用 SELECT *，只获取真正需要的列。：合适的分区和分桶能减少数据量的输入。可以减少小文件数量，提高效率。一步一个脚印，一天一道面试题。

2024-02-29 08:21:51 700

原创【大数据面试题】011 Hive的内部外部表

2.共享性：多个不同表可以共用同一份数据源进行不同的ETL逻辑处理。3.灵活性：当对表结构进行调整时，无需额外备份数据。1.安全性：避免误操作导致数据丢失。

2024-02-28 08:31:01 554

原创【大数据面试题】010 Flink有哪些算子

这几天生病了，每天只睡2到4小时，吃药恢复了，就先来点简单的题。这是一个挺简单的题，不过有时一问我，我还真只结结巴巴说出。

2024-02-27 08:46:33 777

原创【心得】如何做一个靠谱的程序员

你是否曾经遇到过一些的小，比如路径错了一个字母，进而找不到文件，写的小功能直接用错了变量，进而出现一些莫名其妙的问题。那么，如何减少BUG数量，成为一名的程序员呢？这是最近的一点经验总结，希望对你有帮助！这会对我非常有帮助.

2024-02-24 12:18:28 409 1

原创【大数据面试题】009 Flink 有哪些机制实现故障恢复

Flink 支持将任务管理器（TaskManager）配置为高可用模式。当任务管理器发生故障时，会有另一个备份任务管理器接管其职责，从而保证应用程序的持续执行。：Flink 提供了多种容错恢复策略，可以根据具体的需求进行配置。例如，可以设置重启策略来确定在发生故障时是否重新启动任务，并设置重试次数和重试间隔等参数。

2024-02-19 08:15:00 764

原创【大数据面试题】008 谈一谈 Flink资源如何配置

Slot 是 Flink 的最小资源管理单位。目前 Slot 可以隔离内存，但不能隔离 CPU，CPU 是 TaskManager 共享的。Flink 的每个算子都可以单独设置并行度。一般来说，并行度越大，处理能力越大，处理的就越快。，尽量每个 task 都有 slot，避免 task 出现等待资源的情况。可以在 Flink 的 web 中找到。该文章有较多引用文章。

2024-02-18 15:05:45 598

原创【大数据面试题】007 谈一谈 Flink 背压

在流式处理框架中，如果下游的处理速度，比上游的输入数据小，就会导致程序处理慢，不稳定，甚至出现崩溃等问题。

2024-02-16 16:58:25 1118

原创【大数据面试题】006介绍一下Parquet存储格式的优势

在 Hadoop, Spark, Presto, Python 等都支持，所以 Parquet 文件可以在不同系统和语言通用。同一列的数据是同一种数据类型，所以压缩比例可以更高。同时一般查询使用时不会使用所有列，而是只用到几列，所以查询速度会更快。因为是列式存储，所以可以对同一类型的一段做压缩，压缩比例高。

2024-02-14 00:07:49 464

原创【大数据面试题】005 谈一谈 Flink Watermark 水印

在实时处理任务时，由于网络延迟，人工异常，各种问题，数据往往会出现乱序，不按照我们的预期到达处理框架。话不多说，直接给个 Watermark 水印样例代码。一步一个脚印，一天一道面试题。WaterMark 水印，就是。

2024-02-07 15:16:01 1184

空空如也

空空如也