自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Jweilai

把每一天都过程一部杰作

  • 博客(108)
  • 收藏
  • 关注

原创 【大数据面试题】37 Doris 是怎么保证性能的?

一步一个脚印,一天一道大数据面试题祝你身体健康,事事顺心!Doris 是当下大热的 MPP 数据库,下面来聊聊它如何保证高性能的部分。

2024-07-21 16:45:40 501

原创 【大数据面试题】38 说说 Hive 怎么行转列

一步一个脚印,一天一道大数据面试题祝你身体健康,事事顺心!

2024-07-21 16:34:38 594 1

原创 【大数据面试题】36 你平时优化代码有什么方法,思路?

一步一个脚印,一天一道大数据面试。上次梳理了Spark优化,最近想了想通用的优化方法。就是不管优化哪种语言哪种框架都通用的优化思路。分享就是收获,我们开始吧!

2024-07-08 12:09:05 211

原创 【大数据面试题】35 Spark 怎么做优化?

一步一个脚印,一天一道大数据面试题祝你身体健康,事事顺心!Spark 如何做优化一直是面试过程中常问的问题。那么这次也仅以此篇文章总结梳理,希望对大家有帮助。

2024-07-01 22:15:51 786

原创 【随笔】提高代码学习水平(以更高的视角看事物)

最近,我感觉到自己的代码水平似乎卡在了一个瓶颈。似乎只想着数仓,Hive,Spark技术优化,但只要稍微离开这几个点,我就感到无所适从。我开始反思,或许,我应该总结一下自己的学习方法。

2024-06-28 23:01:10 396

原创 【随笔】复盘有感

复盘总结,是我们做得更好的最好方法。

2024-06-03 17:04:25 178

原创 【大数据面试题】34 手写一个 Flink SQL 样例

一步一个脚印,一天一道大数据面试题祝你身体健康,事事顺心!我们来看看Flink SQL。

2024-05-29 12:20:44 412 1

原创 【大数据面试题】33 Flink SQL做过哪些优化?

一步一个脚印,一天一道面试题 简单写几个Flink SQL的优化。

2024-05-26 00:05:46 321

原创 【大数据面试题】32 Flink 怎么重复读 Kafka?

一步一个脚印,一天一道面试题。我是近未来,祝你变得更强!首先,为什么要读过的。

2024-05-22 11:52:35 349

原创 【大数据面试题】31 Flink 有哪些重启方法

Checkpoint是Flink的另一种状态快照机制,它比Savepoint更为频繁,提供了细粒度的状态恢复点。通过配置Checkpoint,Flink会周期性地自动保存作业的状态。如果作业失败,Flink可以根据最后一个成功的Checkpoint自动重启并恢复状态,从而达到“恰好一次”或“至少一次”的处理语义。要启用Checkpoint,需要在作业配置中开启Checkpoint并设置Checkpoint的参数,如间隔时间、模式等。类似,是拿来保存当时状态的一个机制。以便后续可以从这个状态恢复执行。

2024-05-21 23:49:22 284

原创 【大数据面试题】30 Kafka如何保证数据可靠性

数据可靠性一直是各个技术都需要的一个特性。不能在使用过程中数据被错误消费,多消费少消费,或者直接漏了数据。那就来看看热门消息队列 Kafka 在数据可靠性方面做了些什么。

2024-05-17 22:57:52 360

原创 【大数据面试题】29 Kafka 为什么读写那么快?

Kafka是热门的消息队列组件,在大数据中十分常见。Kafka的是其成为热门组件的重要原因。那么就来聊聊,Kafka为什么那么快。

2024-05-16 17:55:07 209

原创 【大数据面试题】28 解释一下大数据的 5V 特性是什么?

一步一个脚印,一天一道面试题。搞点简单的。

2024-05-15 23:14:44 317

原创 【大数据面试题】27 讲下Doris的物化视图

物化视图,顾名思义,是将一个查询的结果预先计算并存储为物理表的形式。这意味着,原本需要在运行时动态执行的复杂查询,现在变成了直接从已经计算好的结果表中读取数据,极大地提升了查询速度。它是一种典型的“空间换时间”的策略,牺牲一定的存储空间来换取查询性能的显著提升。

2024-05-15 00:00:36 414

原创 【大数据面试题】26 解释一下数据湖(Data Lake)的概念,以及它与数据仓库的区别

数据湖(Data Lake)是一种集中存储企业所有原始数据的体系结构,它允许数据以原始、未经过加工的格式被收集并存储。这种存储方式通常不预先定义数据的结构,而是保留数据的原始形态,包括结构化数据(如关系数据库中的表格数据)、半结构化数据(如CSV、日志文件、XML、JSON)和非结构化数据(如文本文件、图像、音频、视频等)。数据湖的核心价值在于它提供了一个灵活的环境,让企业能够在需要时对数据进行分析、处理和转化,适应各种不同的业务需求和分析场景。

2024-05-11 10:00:00 325

原创 【大数据面试题】25 说说你对 Doris 的理解

Doris 能很好地与Hadoop、Spark等大数据生态系统集成,也支持与各类BI工具对接,便于数据可视化和报告生成。:MPP 架构和列式存储设计让 Doris 能够处理高并发的查询请求,即使在数据量庞大的情况下也能保持查询的高效性。其定位更倾向于提供一种统一的分析平台,兼顾实时性和大规模数据处理能力,满足企业多样化的数据分析需求。Doris 既可以作为实时数仓使用,支持企业对数据的实时监控和决策需求,也可以作为离线分析的数据仓库,处理历史数据的深度分析和挖掘。,也就是说,对实时导入的数据会更友好。

2024-05-10 08:30:00 484

原创 【大数据面试题】024 Spark 3 升级了些什么?

一步一个脚印,一天一道面试题近期工作时有用到 Spark 2 升级 Spark 3,解决问题的情况。任务原本是运行小时后,升级到Spark 3后,任务运行小时,并且。平时用 Spark 3 用的也多,就当记录一下。

2024-04-21 00:56:26 326 1

原创 【大数据面试题】023 Spark RDD 是什么?

是整个 Spark 的基础,核心概念。是我们用Spark 时的基础数据单位。这个概念是为了让我们少去考虑数据的大数据量下的并行计算问题。简化我们需要的操作量。:在下面的示例代码中,rdd1 是不会变的,而我们 rdd.map 后,会得到一个。:由于是分布式的,所以可以做到每个节点都计算一部分数据,最后分别输出或汇总输出。: Spark 有多个节点,往往不是单节点运行,是集群中多个节点里都有数据。一步一个脚印,一天一道面试题。我是近未来,祝你变得更强!首先,RDD 全称是。

2024-04-09 23:07:49 355

原创 【大数据面试题】022 完成比完美更重要

我觉得简单的又有些不想写,复杂的又懒得写,所以拖延下来了。但完成比完美更重要,草草发一个也比迟迟不开始好很多。一步一个脚印,一天一道面试题。我是 及未来,祝你变得更强!

2024-04-03 10:15:24 423 2

原创 【大数据面试题】021 Spark 开发过程中遇到过那些报错?

1.看是否数据倾斜单独优化;2.调整到资源充裕的时间段 3.增加资源;时有些 excutor,网络等问题导致失败。一般数据倾斜的概率不高。日常遇到挺多,但没文字记录下来,临时就想到这些,欢迎留言补充。读取还不会报错,但如果用这张表里读的数据去进行下一步的。(程序)被外部应用干掉了,听起来挺奇葩的,但大多就是。这种是因为那个表的那个分区里有脏数据。报错也是一个不错的帮助,来总结一下吧。清理错误数据,可以考虑删除文件,或。一步一个脚印,一天一道面试题。我是近未来,祝你变得更强。写入,就会发生报错。

2024-03-25 08:30:00 298

原创 【大数据面试题】020 你使用过哪些大数据平台?有什么区别?

一步一个脚印,一天一道面试题。因为大数据早已脱离了当初只要搭建 集群就算成功的蛮荒时代。为了各个大数据组件使用方便,国内的大企业都用上了大数据平台,这些平台会集成,图形化管理,升级各类组件。比如你可以图表的形式去了解集群状态,存储使用等。非常方便。然后现在的面试也很多会问有没有使用到公司在用的大数据平台。那这次也就简单说说咱们国内相对常见的大数据平台吧。简单总结:免费的,Apache 开源的大数据平台,2022年1月停止维护。实际使用:Ambari作为一款开源的集群管理工具,在Hadoop生态系统中被广

2024-03-23 18:35:54 561 2

原创 【大数据面试题】019 Hive是怎么管理元数据的?说说你的理解

一步一个脚印,一天一道面试题。首先,?是表的属性数据。比如建表语句,是哪个数据库下的,有哪些字段,数据存放到哪个位置。这些元数据很重要,但相对较碎,较小,不太适合存放在HDFS上。所以一般。

2024-03-21 08:53:18 465

原创 【随笔】学习方法很多,你觉得哪个最有效?

一步一个脚印,今天先不写面试题哈哈哈。今天突然有感,想写一写感想。即使是在AI开始大爆发的时代,我认为适当的学习,提升自己能力是一部分,是功利的一部分,抛开这部分,多读读书📚 完善自己的内心,让自己过得更自在,内心更完整。这是我认为非常棒的一件事。也是给自己一个小总结。那不管是功利性学习,或是非功利的学习,我们总会遇到一些不理解,难学的地方。我们有什么好方法去解决呢?我刷到过非常多讲学习方法的学习视频,文章,但目前个人认为最好用的方法就两个。

2024-03-19 08:35:49 607

原创 【大数据面试题】 018 数据仓库的分层了解吗?说说你的理解

数据仓库是我们大数据十分重要的组成部分,也能在这套规范里找到处理海量数据的智慧。(虽然很多公司即使用了数据仓库后还是有很多效率,浪费之类的问题,但那就是数据治理的后话了)我是 jiweilai,祝你变的更强!

2024-03-18 22:49:29 552

原创 【大数据面试题】017 Kafka消费数据积压遇到过吗?怎么处理的

如果是下游的数据处理不及时:提高每批次拉取的数量。批次拉取数据过少(拉取数据/处理时间<生产速度),使处理的数据小于生产的数据,也会造成数据积压。如果是Kafka消费能力不足,则可以考虑增加Topic的分区数,并且同时提升消费组的消费者数量,消费者数=分区数。许多时候,Kafka消费积压是消费的不及时。可能需要看看消费者组件,比如。我是 Jiweilai,祝你变得更强!一步一个脚印,一天一道面试题。2.增加每批次拉取数量。3.优化消费者代码。

2024-03-18 17:23:06 403

原创 【大数据面试题】016 Kafka 的分区可以变更吗?为什么?

所以讨论下来减少分区真是费力不讨好的事,而且忽然在想,好像没什么场景是一定要减少分区的。,原因想想也挺简单的,减少了分区数后,被减少的分区的数据应该怎么处理?命令对 Kafka 增加 Kafka 的分区数据。是一个主流的分布式消息队列。我是 Jiweilai,祝你变得更强!偏移量,记录数据消费到哪个位置了。一天一个脚印,一天一道面试题。

2024-03-16 13:14:03 461

原创 【大数据面试题】015 Kafka的ISR,OSR,AR分别是什么

Kafka 作为一个天生支持分布式的消息队列,为了数据的可靠性,很自然支持了** 备份 Replica**。而消息队列的备份需要及时的跟leader副本保持一致,否则数据不是最新的,对数据队列来说也是不能用的。

2024-03-15 19:30:19 533

原创 【大数据面试题】014 Flink CDC 用过吗,请简要描述

一步一个脚印,一天一道面试题。

2024-03-15 08:14:27 803

原创 【大数据面试题】013 Spark 与 Presto 区别与比较

对小型查询和交互式分析的性能可能不如专门的查询引擎;:Presto采用内存计算和并行执行机制,能够快速处理大规模数据查询,适合高性能的交互式查询。:支持多种数据源和 ANSI SQL 标准,可以进行跨源的复杂查询和分析操作。:采用分布式共享无状态计算模型,具备高可伸缩性和容错性,适合大规模数据处理。:具备动态优化器功能,能够根据查询特性选择最佳执行计划,提升查询性能。:由于内存计算和并行执行,可能消耗较多的资源,需要合理规划和管理资源。:管理和配置相对复杂,需要一定的专业知识和经验。

2024-03-12 08:30:00 657

原创 【错误处理】【Hive】【Spark】ERROR FileFormatwriter: Aborting job null.

如果怎么都使用不了那张表的话,大概率是那张表有脏数据,导致整张表无法正常使用。近日,使用 Spark 在读写。清除该表数据,再重新插入数据。

2024-02-29 21:56:38 923

原创 【大数据面试题】012 谈谈 Hive 性能优化常用的方法

合理的并行度设置可以更好的利用集群性能,否则可能会“有力使不出”或“杀鸡用牛刀”的情况。:尽量在本地节点做更多的操作,减少网络传输等开销,比如使用 mapjoin;:Parquet,ORC 是可以减少 I/O ,网络传输速率等的。收集表的信息,可以让优化器更可能做出更好的查询计划;:一般不要使用 SELECT *,只获取真正需要的列。:合适的分区和分桶能减少数据量的输入。可以减少小文件数量,提高效率。一步一个脚印,一天一道面试题。

2024-02-29 08:21:51 698

原创 【大数据面试题】011 Hive的内部外部表

2.共享性:多个不同表可以共用同一份数据源进行不同的ETL逻辑处理。3.灵活性:当对表结构进行调整时,无需额外备份数据。1.安全性:避免误操作导致数据丢失。

2024-02-28 08:31:01 552

原创 【大数据面试题】010 Flink有哪些算子

这几天生病了,每天只睡2到4小时,吃药恢复了,就先来点简单的题。这是一个挺简单的题,不过有时一问我,我还真只结结巴巴说出。

2024-02-27 08:46:33 775

原创 【心得】如何做一个靠谱的程序员

你是否曾经遇到过一些的小,比如路径错了一个字母,进而找不到文件, 写的小功能 直接用错了变量,进而出现一些莫名其妙的问题。那么,如何减少BUG数量,成为一名的程序员呢?这是最近的一点经验总结,希望对你有帮助!这会对我非常有帮助.

2024-02-24 12:18:28 408 1

原创 【大数据面试题】009 Flink 有哪些机制实现故障恢复

Flink 支持将任务管理器(TaskManager)配置为高可用模式。当任务管理器发生故障时,会有另一个备份任务管理器接管其职责,从而保证应用程序的持续执行。:Flink 提供了多种容错恢复策略,可以根据具体的需求进行配置。例如,可以设置重启策略来确定在发生故障时是否重新启动任务,并设置重试次数和重试间隔等参数。

2024-02-19 08:15:00 748

原创 【大数据面试题】008 谈一谈 Flink资源如何配置

Slot 是 Flink 的最小资源管理单位。目前 Slot 可以隔离内存,但不能隔离 CPU,CPU 是 TaskManager 共享的。Flink 的每个算子都可以单独设置并行度。一般来说,并行度越大,处理能力越大,处理的就越快。,尽量每个 task 都有 slot,避免 task 出现等待资源的情况。可以在 Flink 的 web 中找到。该文章有较多引用文章。

2024-02-18 15:05:45 591

原创 【大数据面试题】007 谈一谈 Flink 背压

在流式处理框架中,如果下游的处理速度,比上游的输入数据小,就会导致程序处理慢,不稳定,甚至出现崩溃等问题。

2024-02-16 16:58:25 1110

原创 【大数据面试题】006介绍一下Parquet存储格式的优势

在 Hadoop, Spark, Presto, Python 等都支持,所以 Parquet 文件可以在不同系统和语言通用。同一列的数据是同一种数据类型,所以压缩比例可以更高。同时一般查询使用时不会使用所有列,而是只用到几列,所以查询速度会更快。因为是列式存储,所以可以对同一类型的一段做压缩,压缩比例高。

2024-02-14 00:07:49 462

原创 【大数据面试题】005 谈一谈 Flink Watermark 水印

在实时处理任务时,由于网络延迟,人工异常,各种问题,数据往往会出现乱序,不按照我们的预期到达处理框架。话不多说,直接给个 Watermark 水印样例代码。一步一个脚印,一天一道面试题。WaterMark 水印,就是。

2024-02-07 15:16:01 1182

原创 【大数据面试题】004 Flink状态后端是什么

将状态存储在 FileSystem,如本地文件系统,或 HDFS 文件系统。写入到文件后,如果遇到程序中断停止,能够正常恢复。生产环境中, FsStateBackend 是个不错的选择。所以如果需要更高的性能,可以使用这个状态后端。那作为最热门的实时处理框架,Flink对状态管理是有一套的。那就是状态后端,拿来管理,储存 Flink 里状态的东西,默认是用 MemoryBackend。很不稳定,如果程序中断停止,存在内存中的状态就会消失,重启不能正常恢复,处理状态。那就需要记录到之前的状态,数值。

2024-02-07 10:05:20 2096

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除