【报错处理】MR/Spark 使用 BulkLoad 方式传输到 HBase 发生报错: NullPointerException 【报错处理】MR/Spark 使用 BulkLoad 方式传输到 HBase 发生报错: NullPointerException
【大数据面试题】36 你平时优化代码有什么方法,思路? 一步一个脚印,一天一道大数据面试。上次梳理了Spark优化,最近想了想通用的优化方法。就是不管优化哪种语言哪种框架都通用的优化思路。分享就是收获,我们开始吧!
【大数据面试题】35 Spark 怎么做优化? 一步一个脚印,一天一道大数据面试题祝你身体健康,事事顺心!Spark 如何做优化一直是面试过程中常问的问题。那么这次也仅以此篇文章总结梳理,希望对大家有帮助。
【随笔】提高代码学习水平(以更高的视角看事物) 最近,我感觉到自己的代码水平似乎卡在了一个瓶颈。似乎只想着数仓,Hive,Spark技术优化,但只要稍微离开这几个点,我就感到无所适从。我开始反思,或许,我应该总结一下自己的学习方法。
【大数据面试题】31 Flink 有哪些重启方法 Checkpoint是Flink的另一种状态快照机制,它比Savepoint更为频繁,提供了细粒度的状态恢复点。通过配置Checkpoint,Flink会周期性地自动保存作业的状态。如果作业失败,Flink可以根据最后一个成功的Checkpoint自动重启并恢复状态,从而达到“恰好一次”或“至少一次”的处理语义。要启用Checkpoint,需要在作业配置中开启Checkpoint并设置Checkpoint的参数,如间隔时间、模式等。类似,是拿来保存当时状态的一个机制。以便后续可以从这个状态恢复执行。
【大数据面试题】30 Kafka如何保证数据可靠性 数据可靠性一直是各个技术都需要的一个特性。不能在使用过程中数据被错误消费,多消费少消费,或者直接漏了数据。那就来看看热门消息队列 Kafka 在数据可靠性方面做了些什么。
【大数据面试题】27 讲下Doris的物化视图 物化视图,顾名思义,是将一个查询的结果预先计算并存储为物理表的形式。这意味着,原本需要在运行时动态执行的复杂查询,现在变成了直接从已经计算好的结果表中读取数据,极大地提升了查询速度。它是一种典型的“空间换时间”的策略,牺牲一定的存储空间来换取查询性能的显著提升。
【大数据面试题】26 解释一下数据湖(Data Lake)的概念,以及它与数据仓库的区别 数据湖(Data Lake)是一种集中存储企业所有原始数据的体系结构,它允许数据以原始、未经过加工的格式被收集并存储。这种存储方式通常不预先定义数据的结构,而是保留数据的原始形态,包括结构化数据(如关系数据库中的表格数据)、半结构化数据(如CSV、日志文件、XML、JSON)和非结构化数据(如文本文件、图像、音频、视频等)。数据湖的核心价值在于它提供了一个灵活的环境,让企业能够在需要时对数据进行分析、处理和转化,适应各种不同的业务需求和分析场景。
【大数据面试题】25 说说你对 Doris 的理解 Doris 能很好地与Hadoop、Spark等大数据生态系统集成,也支持与各类BI工具对接,便于数据可视化和报告生成。:MPP 架构和列式存储设计让 Doris 能够处理高并发的查询请求,即使在数据量庞大的情况下也能保持查询的高效性。其定位更倾向于提供一种统一的分析平台,兼顾实时性和大规模数据处理能力,满足企业多样化的数据分析需求。Doris 既可以作为实时数仓使用,支持企业对数据的实时监控和决策需求,也可以作为离线分析的数据仓库,处理历史数据的深度分析和挖掘。,也就是说,对实时导入的数据会更友好。