自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

微信搜:import_bigdata,大数据领域硬核原创作者

GitHub搜:https://github.com/wangzhiwubigdata/God-Of-BigData

  • 博客(1904)
  • 资源 (1)
  • 收藏
  • 关注

原创 2022年最新版大数据面试题全面总结-持续更新

2021-2022大数据面试题全面总结

2021-01-10 12:55:40 7967 5

原创 大数据方向学习进阶知识图谱

总体描述:大数据开发岗位技能树,学习和复习总纲。关键词:面试 大数据 大纲正所谓,无招胜有招。愿读到这篇文章的技术人早日明白并且脱离技术本身,早登彼岸。一切技术最终只是雕虫小技。大纲本系列主题是大数据开发面试指南,旨在为大家提供一个大数据学习的基本路线,完善数据开发的技术栈,以及我们面试一个大数据开发岗位的时候,哪些东西是重点考察的,这些公司更希望面试者具备哪些技能。本...

2019-09-08 20:51:10 1937 1

转载 阿里大数据之路:数据管理篇大总结

全网最全大数据面试提升手册!第1章 元数据1.1 元数据概述1.1.1 元数据定义元数据打通了源数据、数据仓库、数据应用,记录了数据从产生到消费的全过程。元数据主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的任务运行状态。元数据按用途的不同分为两类:技术元数据( Technical Metadata) 和业务元数据(Business Metadata )技术元...

2022-11-22 12:21:55 29

转载 定了!11月起,网易将为本号粉丝提供数据分析培训,费用全免!

网易网易商业数据分析特训营—— 0基础 0费用 3大免费福利——日常工作中你一定遇到过这样的情况:工作汇报需要展示数据,做了十几页PPT却总是看不到重点,领导看了直摇头!不会数据可视化怎么办?来网易3天学会制作炫酷可视化报表!用超强数据分析能力征服领导就现在!原价值¥599网易数据分析特训营扫码0元报名 | 限额50人领取3大福利 | 先到先得0元报课,还能领免费福利!01福利1:100...

2022-11-21 11:45:04 13

转载 Kafka Consumer Rebalance详解

全网最全大数据面试提升手册!文章目录Kafka版本rebalancerebalance策略rebalance generationrebalance协议rebalance流程rebalance监听器1. Kafka版本kafka版本1.1.1,可能绝大部分也适用于kafka 0.10.x及以上版本。2. rebalanceConsumerGroup(消费组)里的Consumer(消费者)共同读取t...

2022-11-14 11:48:32 16

转载 一文读懂,硬核 Apache DolphinScheduler3.0 源码解析

全网最全大数据面试提升手册!本文目录DolphinScheduler的设计与策略1.1 分布式设计1.1.1 中心化1.1.2 去中心化1.2 DophinScheduler架构设计1.3 容错问题1.3.1 宕机容错1.3.2 失败重试1.4 远程日志访问DolphinScheduler源码分析2.1 工程模块介绍与配置文件2.1.1 工程模块介绍2.1.2 配置文件2.2 Api主要任务操作接...

2022-10-26 17:45:07 187

转载 报表工具的二次革命

温馨提示:本文大约 9000 字左右,预计阅读时长 10 分钟报表工具是一个历史比较悠久的软件类产品了,已经有 20 年以上的发展历史了,在这 20 多年中,产品在不断的更新迭代,不断的随着需求的改变而进步完善,持续发挥着自己的价值在这无数次的更新迭代中,又有两次比较大的变革,极具重要意义,可以算作是工具发展史上的两大里程碑式的革命,对软件的发展走向起到了决定性的作用先回顾第一次革命第一次革命发生...

2022-10-25 09:00:43 97

转载 阿里大数据之路:数据模型篇大总结

全网最全大数据面试提升手册!第1章 大数据领域建模综述1.1 为什么需要数据建模有结构地分类组织和存储是我们面临的一个挑战。数据模型强调从业务、数据存取和使用角度合理存储数据。数据模型方法,以便在性能、成本、效率之间取得最佳平衡成本:良好的数据模型能极大地减少不必要的数据冗余,也能实现计算结果复用,极大地降低大数据系统中的存储和计算成本。效率:良好的数据模型能极大地改善用户使用数据的体验,提高使用...

2022-10-24 18:50:58 572

转载 Hive SQL 大厂必考常用窗口函数及相关面试题

全网最全大数据面试提升手册!目录一、窗口函数概述:1.窗口函数的分类2.窗口函数与普通聚合函数的区别:二、窗口函数的基本用法1.基本语法2.设置窗口的方法1)window_name2)partition by 子句3) order by子句4)rows 指定窗口大小3.开窗函数中加order by 和 不加 order by的区别三、窗口函数用法举例1.序号函数:row_number() / ra...

2022-10-18 16:16:58 123

转载 全球第一!新一代云数仓 SelectDB 登顶 ClickBench

概述:分析型数据库性能排行榜 ClickBench 最近迎来了一匹黑马,那就是成立不满一年,成绩却斐然的新一代云数仓 SelectDB。其在业界最为通用的 c6a.4xlarge, 500gb gp2 机型下位居榜首,超越了此前霸占榜首的 ClickHouse,多项指标排行前列。这无疑在数据库领域掀起了大风浪,人们纷纷搜索SelectDB 这个新名字。今天,就由小编带领大家来一探究竟吧!关于Cl...

2022-10-14 09:38:10 157

转载 Apache Hudi 使用文件聚类功能 (Clustering) 解决小文件过多的问题

全网最全大数据面试提升手册!Hudi测试:批处理后文件据类再接流本文详细阐述了在 “批处理后,流处理之前” 进行文件 Clustering 操作的方法。该方法可以将众多小文件合并成数量极少的大文件,从而防止过多小文件的产生。在批处理结束后进行 Clustering 主要涉及如下几个步骤,它们主要都是通过 spark-submit 命令完成的:制定 Clustering 计划,找到批处理数据结束首先...

2022-10-13 11:45:27 113

转载 Flink CDC 2.2.0同步Mysql数据到Hudi数据湖表实践

全网最全大数据面试提升手册!目录介绍Deserialization序列化和反序列化添加Flink CDC依赖3.1 sql-client3.2 Java/Scala API使用SQL方式同步Mysql数据到Hudi数据湖4.1 Mysql表结构和数据4.2 Flink开启checkpoint4.3 在Flink中创建Mysql的映射表4.4 在Flink中创建Hudi Sink的映射表4.5 流式...

2022-10-08 11:45:30 270

转载 为什么大数据平台要回归SQL

先说观点:因为还没找到更好的。接下来说原因,首先来看看大数据平台都在干什么。原因结构化数据计算仍是重中之重大数据平台主要是为了应对海量数据存储和分析的需求,海量数据存储的确不假,除了生产经营产生的结构化数据,还有大量音视频等非结构化数据,这部分数据很大,占用的空间也很多,有时大数据平台 80% 以上都存储着非结构化数据。不过,数据光存储还不行,只有利用起来才能产生价值,这就要进行分析了。大数据分析...

2022-09-28 09:00:37 160

转载 你不得不知道的Iceberg的配置Configuration

全网最全大数据面试提升手册!Configuration1.table properties1.1 Read properties因为Iceberg在HDFS上的data文件,通常都是一个个的小文件,所以读取的时候会先进行combine,然后再返回数据。下面是进行combine的一些配置1.2 Write properties1.3 Table behavior properties1.4 Rese...

2022-09-19 17:45:31 118

转载 大数据面试提升私教训练营低调报名开启~

2022年大数据面试提升训练营新一期开放报名,限制名额20-25人。一、适用人群1.应届生、后端转行、或者小公司、外包、传统领域转型、有跳槽涨薪诉求等同学进阶和冲击中大厂的使用;2.大数据专业,有一定基础;3.技术陈旧、传统离线数据仓库/ETL开发、对大数据前沿、实时计算、大厂真实场景和项目感兴趣;4.自己做过/参加过培训班、学习过B站的大数据项目,但是没有面试经验、不知道大厂真实开发流程以及有迫...

2022-09-05 11:45:19 165

转载 你的Flink数据重分区又设置错了?Flink重分区算子详细解析

全网最全大数据面试提升手册!一、背景说明目前Flink包含8个重分区算子,对应8个分区器(7个官方定义及1个自定义),均继承与父类StreamPartitioner。RebalancePartitionerRescalePartitionerKeyGroupStreamPartitionerGlobalPartitionerShufflePartitionerForwardPartiti...

2022-08-15 11:30:29 410

原创 【硬刚Hive】Hive高级(5):优化(5)HiveSQL优化方法与实践(二)

111

2022-08-09 23:06:40 530

转载 Doris建表注意事项,实时数仓的同学记得收藏

全网最全大数据面试提升手册!基本概念Row & Column一张表包括行(Row)和列(Column)。Row 即用户的一行数据。Column 用于描述一行数据中不同的字段。Column 可以分为两大类:Key 和 Value。从业务角度看,Key 和 Value 可以分别对应维度列和指标列。从聚合模型的角度来说,Key 列相同的行,会聚合成一行。其中 Value...

2022-08-08 17:45:32 409

转载 阿里云云原生数据湖体系全面解读

全网最全大数据面试提升手册!阿里云首次发布云原生数据湖体系,基于对象存储OSS、数据湖构建Data Lake Formation和E-MapReduce产品的强强组合,提供存储与计算分离架构下,涵盖湖存储、湖加速、湖管理和湖计算的企业级数据湖解决方案。数据湖 总体架构——计算存储分离 如果这个文章对你有帮助,不要忘记「在看」「点赞」「收藏」三连啊喂!2022年全网...

2022-08-05 11:45:48 269

转载 Datax3.0+DataX-Web打造分布式可视化ETL系统

全网最全大数据面试提升手册!一、DataX 简介DataX 是阿里云 DataWorks 数据集成的开源版本,主要就是用于实现数据间的离线同步。DataX 致力于实现包括关系型数据库(MySQL、Oracle 等)、HDFS、Hive、ODPS、HBase、FTP 等各种异构数据源(即不同的数据库) 间稳定高效的数据同步功能。为了解决异构数据源同步问题,DataX将复杂的...

2022-08-04 11:45:55 364

转载 Apache Calcite 框架原理入门和生产应用

全网最全大数据面试提升手册!1. 简介 Calcite 是什么?如果用一句话形容 Calcite,Calcite 是一个用于优化异构数据源的查询处理的基础框架。最近十几年来,出现了很多专门的数据处理引擎。例如列式存储 (HBase)、流处理引擎 (Flink)、文档搜索引擎 (Elasticsearch) 等等。这些引擎在各自针对的领域都有独特的优势,在现有复杂的业务场景...

2022-08-02 11:30:05 268

转载 一次Spark SQL线上问题排查和定位

全网最全大数据面试提升手册!背景 该sql运行在spark版本 3.1.2下的thrift server下现象 在运行包含多个union 的spark sql的时候报错(该sql包含了50多个uinon,且每个union字查询中会包含join操作),其中union中子查询sql类似如下:SELECTa1.order_no,a1...

2022-07-28 17:30:18 305

转载 Flink+Iceberg环境搭建及生产问题处理

全网最全大数据面试提升手册!概述作为实时计算的新贵,Flink受到越来越多公司的青睐,它强大的流批一体的处理能力可以很好地解决流处理和批处理需要构建实时和离线两套处理平台的问题,可以通过一套Flink处理完成,降低成本,Flink结合数据湖的处理方式可以满足我们实时数仓和离线数仓的需求,构建一套数据湖,存储多样化的数据,实现离线查询和实时查询的需求。目前数据湖方面有Hud...

2022-07-27 17:30:19 387

转载 美团住宿业务数据治理体系化思考与实践

全网最全大数据面试提升手册!一、序言二、背景介绍三、治理体系化思考3.1 什么是数据治理体系化?3.2 数据治理体系化如何解决目前治理存在的问题?3.3 业务数据管治体系框架如何建设?3.4 体系框架如何落地实施?四、治理体系化实践4.1 标准化4.2 数字化4.3 系统化五、业务数据治理实施流程六、总结与展望一、序言美团住宿数据治理团队通过多年数仓建设及数据治理的经验沉...

2022-07-18 11:45:53 251

转载 Apache Iceberg小文件处理和读数流程分析

点击上方蓝色字体,选择“设为星标”回复"面试"获取更多惊喜全网最全大数据面试提升手册!第一部分:Spark读取Iceberg流程分析 这个部分我们分析常规数据读取流程,不涉及到数据更新,删除等场景下的读取。数据读取大概可以分为两个步骤通过 Iceberg 的元数据 snapshot, manifest file 等解析出包含数据文件信息的 DataFile 对象读取数据文...

2022-07-12 17:07:14 309

转载 Flink+Iceberg搭建实时数据湖实战

点击上方蓝色字体,选择“设为星标”回复"面试"获取更多惊喜全网最全大数据面试提升手册!第一部分:Iceberg 核心功能原理剖析 :Apache Iceberg摘自官网:ApacheIcebergisanopentableformatforhugeanalyticdatasets.可以看到 Founders 对 Iceberg 的定位是面向海量数据分析...

2022-07-07 19:55:11 1064 2

转载 Apache Iceberg核心原理分析文件存储及数据写入流程

点击上方蓝色字体,选择“设为星标”回复"面试"获取更多惊喜全网最全大数据面试提升手册!第一部分:Iceberg文件存储格式Apache Iceberg作为一款新兴的数据湖解决方案在实现上高度抽象,在存储上能够对接当前主流的HDFS,S3文件系统并且支持多种文件存储格式,例如Parquet、ORC、AVRO。相较于Hudi、Delta与Spark的强耦合,Iceberg可以...

2022-07-06 18:10:57 705 1

转载 六月份阶段性大总结之Doris/Clickhouse/Hudi一网打尽

点击上方蓝色字体,选择“设为星标”回复"面试"获取更多惊喜全网最全大数据面试提升手册!这是个阶段性小总结,后面会持续更新。ClickHouse「Clickhouse系列」分布式表&本地表详解「ClickHouse系列」ClickHouse之MergeTree原理「ClickHouse系列」Replication机制详解「ClickHouse系列」ClickHous...

2022-07-01 15:17:38 686

转载 Apache Doris Compaction优化百科全书

点击上方蓝色字体,选择“设为星标”回复"面试"获取更多惊喜全网最全大数据面试提升手册!Doris Compaction机制解析 1. 总体架构1.1 “生产者-消费者”模式Compaction机制要解决的第一个问题,就是如何选取合适的Tablet进行Compaction。Doris的compaction机制采用“生产者-消费者”(producer-consumer)模式,...

2022-06-29 11:54:32 220

转载 Apache Doris实时数据分析保姆级使用教程

点击上方蓝色字体,选择“设为星标”回复"面试"获取更多惊喜《大数据面试提升私教训练营第6期低调报名开启~》Doris安装 集群部署官网下载地址:https://doris.apache.org/zh-CN/downloads/downloads.html选择二进制下载,源码下载需要自己编译。解压doris文件:tar -zxvf apache-doris-1.0.0-in...

2022-06-20 17:30:02 561

转载 Doris文章阶段性小总结

点击上方蓝色字体,选择“设为星标”回复"面试"获取更多惊喜全网最全大数据面试提升手册!这是个阶段性小总结,后面会持续更新。「硬刚Doris系列」Apache Doris基本使用和数据模型「硬刚Doris系列」Apache Doris架构原理及核心特性解读「硬刚Doris系列」Doris高级用法「硬刚Doris系列」Apache Doris的向量化和Roaring BitM...

2022-06-13 16:30:21 165 1

转载 推荐优质大数据学习平台

大家好:今天推荐几位资深大佬,他们都是数据领域的优质专家,大家可以根据需要按需关注。一个数据人的自留地号主大鹏,拥有8年的数据经验,现为某大厂的数据产品负责人,人人都是产品经理专栏作家,起点学院导师。大鹏老师坚持写作8年,累计数百万字,30岁前出版了自己的第一本书《数据产品经理修炼手册》,上市1年销量30000+,最新由一个数据人的自留地作者联盟共同出版的《大数据实践之路...

2022-06-11 10:17:48 340

转载 「ClickHouse系列」ClickHouse的优化之Block+LSM

点击上方蓝色字体,选择“设为星标”回复"面试"获取更多惊喜轻戳有惊喜:全网最全大数据面试提升手册!第一部分: Block + LSM其实本部分的标题也可以换成批处理+预排序。clickhouse通过block的设计来实现批处理,通过lsm算法来实现预排序。我们分别来分析一下,这个组合对查询速度的影响。首先,我们分析有序存储和无序存储对查询速度的影响。我们一般在做查询时,大...

2022-06-08 17:29:12 342

转载 2022版Netty面试题小总结

点击上方蓝色字体,选择“设为星标”回复"面试"获取更多惊喜轻戳有惊喜:全网最全大数据面试提升手册!一. 基本概念 1、什么是 Netty?Netty 是由 JBOSS 提供的一个 Java 开源框架。Netty 提供异步的、基于事件驱动的网络应用程序框架,用以快速开发高性能、高可靠性的网络 IO 程序,是目前最流行的 NIO 框架,Netty 在互联网领域、大数据分布式计...

2022-06-06 17:50:53 192

转载 送一堆书

大家好!端午节马上就要快到了,为了感谢大家一直以来的陪伴和支持,我和其他几个数据领域的大咖联合清华大学出版社来给大家送福利啦!!话不多说,我们进入正题:怎么送书和送什么书。1.怎么送书本次送书由10 个大佬一起给大家送上 30 本技术书籍,包邮噢!送书规则如下1. 在 10个公众号的后台分别回复【531】二字,即可出来抽奖小程序。十个公众号,同时参与,中奖概率增大 9...

2022-06-04 11:30:33 172

转载 「硬刚Doris系列」官方常见问题小汇总

点击上方蓝色字体,选择“设为星标”回复"面试"获取更多惊喜轻戳有惊喜:全网最全大数据面试提升手册!阅读读本文前必读:「硬刚Doris系列」Apache Doris基本使用和数据模型「硬刚Doris系列」Apache Doris架构原理及核心特性解读「硬刚Doris系列」Doris高级用法「硬刚Doris系列」Apache Doris的向量化和Roaring BitMap第...

2022-06-02 13:07:29 2132 1

转载 「硬刚Doris系列」Apache Doris的向量化和Roaring BitMap

点击上方蓝色字体,选择“设为星标”回复"面试"获取更多惊喜轻戳有惊喜:全网最全大数据面试提升手册!一.向量化假如有个sql :selectc1,c2fromtwherec1<100andc4=10用户通过 SQL 语句向数据库发起计算请求,SQL 中的计算主要包括两类:expression 级别的计算和 operator 级别的计算。该 S...

2022-05-31 17:30:48 474

转载 「硬刚Doris系列」Apache Doris 架构原理及核心特性解读

点击上方蓝色字体,选择“设为星标”回复"面试"获取更多惊喜轻戳有惊喜:全网最全大数据面试提升手册!一、架构原理 1.1 Doris整体架构Doris主要分为FE和BE两个组件,FE主要负责查询的编译,分发和元数据管理(基于内存,类似HDFS NN);BE主要负责查询的执行和存储系统这张图是Doris的整体架构。Doris的架构很简洁,只设FE(Frontend)、BE(B...

2022-05-30 17:30:20 622

转载 「硬刚Doris系列」Doris高级用法

点击上方蓝色字体,选择“设为星标”回复"面试"获取更多惊喜????轻戳有惊喜:全网最全大数据面试提升手册!1.1 添加Rollup Rollup 可以理解为 Table 的一个物化索引结构。物化 是因为其数据在物理上独立存储,而 索引 的意思是,Rollup可以调整列顺序以增加前缀索引的命中率,也可以减少key列以增加数据的聚合度。以下举例说明。原表table1的Schema如...

2022-05-27 11:30:08 412

转载 硬刚Doris系列」Apache Doris基本使用和数据模型

点击上方蓝色字体,选择“设为星标”回复"面试"获取更多惊喜????轻戳有惊喜:八股文教给我,你们专心刷题和面试一. 基础使用1.1 创建数据库MySQL>CREATEDATABASEexample_db;MySQL>SHOWDATABASES;+--------------------+|Database|+--------...

2022-05-24 11:32:51 1483

大数据面试大总结300页.zip

大数据面试大总结300页.zip

2021-07-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除