自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

微信搜:import_bigdata,大数据领域硬核原创作者

GitHub搜:https://github.com/wangzhiwubigdata/God-Of-BigData

  • 博客(2029)
  • 资源 (1)
  • 收藏
  • 关注

原创 自助者天助之|记录大数据提高班锦鲤妹妹从小公司进入中大厂的经历!

深夜码字,这篇文章记录的是大数据提高班带的一个小学妹,我们下文称她为锦鲤妹妹。锦鲤妹妹的个人学历和履历背景没有大家想象的那么好,普通学校,普通的工作履历。我们直接进入正题,关于学习的过程中做得好的地方供大家借鉴。PS:不要以为你们长得好看我就不敢凶你们????首先,在对待学习的态度上。 互联网发展至今,加上这两年的大环境问题,已经有相当多的同学做了妥协甚至躺平。锦鲤妹妹在学习态度上,在我带过的这些同学当...

2024-09-25 08:02:29 340

转载 【查询优化】Doris性能优化不要慌,再看看这里!

《Doris性能优化不要慌,再看看这里!- Join优化》《Doris性能优化不要慌,再看看这里!- 导入优化》这篇是第三部分查询优化。OLAP查询对于高并发查询,其核心在于如何平衡有限的系统资源消耗与并发执行带来的高负载。换而言之,需要最大化降低单个 SQL 执行时的 CPU、内存和 IO 开销,其关键在于减少底层数据的 Scan 以及随后的数据计算。Doris能够实现高并发查询的能力主要是通过...

2024-09-18 09:30:37 205

转载 Doris性能优化不要慌,再看看这里!

我们在之前的《Doris性能优化不要慌,看看这里!》详细介绍了Doris Join的优化策略。今天的文章是第二部分,关于Doris导入优化。为提供快速的数据写入支持,Apache Doris 存储引擎采用了类似 LSM Tree 结构。在进行数据导入时,数据会先写入 Tablet 对应的 MemTable 中,MemTable 采用 SkipList 的数据结构。当 MemTable 写满之后,会...

2024-09-12 09:31:00 340

转载 抱歉,年前我劝各位真的别轻易离职......

国内大模型“落地战”终于打响!一些大模型企业开始赚钱了最高单个项目金额近2亿元人民币除科大讯飞、阿里云、华为等巨头公司之外,很多中小企业也陆续进场各个机构与企业开始大刀阔斧招揽 AI 人才甚至开出80k*16的高薪,挖掘会使用 AI 的数据人才!作为数据人,如何不被时代抛弃,享受AI技术带来的红利?!????知乎知学堂特发起:行业前沿资源——AI大模型公开课已为本号粉丝开通免费领取权限预计24小时后...

2024-09-11 09:30:52 291

原创 Doris性能优化不要慌,看看这里!

因为Doris这个框架越来越火,行业内已经成为了必不可少的框架,面试当然也是重点考察。Doris性能优化不要慌,分为几个部分掌握回答就好了。关于Doris的优化是一个很大的课题,我们可以从几个方面进行回答。例如:导入、查询、Join优化等等。我们起一个小的系列,专门回答这个问题。我们先从Join优化说起。一、Doris数据划分在介绍Doris中多种Join方式及优化原理之前,先回顾下Doris的数...

2024-09-08 14:54:21 1200

原创 面试界经典的「如果xx怎么办?」问题回答思路

大家好,又是没更新的一周。周末早早爬起来写了一点字,然后发出来,文章很短。本次是回答知识星球的一个问题。问题如下:前两个问题都很好回答,没什么难度。重点是后面两个问题。「如果碰到Binlog丢失,有修复机制吗?」「如果出现问题,如何解决?」在面试界有一类经典的问题就是「如果」类问题,例如我们上面的那两个问题。这个也是我在给很多同学做模拟面试时候提的问题。首先,「如果」类问题已经预设了这个问题已经...

2024-09-07 10:48:15 798

原创 技术类面试,面试官的决策标准

最近更新频率变低,因为实在是抽不出整块写作的时间。今天的话题是给知识星球和大数据提高班同学做一对一的时候经常被问到的问题。我简单整理了一下,语言未经过仔细组织,直接手机打字的,有些不通顺的地方能理解意思就好。提前需要说明几点:文章中的角度是站在面试官的角度,你只有知道他在面试的时候到底想要什么,才能针对性的去准备,达到事半功倍的效果;面试等于考试,不认真准备几乎必挂,跟你的学历、背景无关;我们讨论...

2024-08-28 21:54:58 1435

原创 关于Flink内存分配核心知识点

这个问题同样也是之前辅导过的同学的面试问题,这个问题非常接地气且考察面试者的实践经验。事实上,这也是我们大数据提高班的Flink专项提高部分内容。下面我列举的这些就是核心,能答出这些重点即可。内存模型在Flink1.9和Flink1.11版本做了非常大的改动,主要原因是为了统一Batch和Streaming的内存配置。首先我建议大家只看Flink1.11版本的内存配置即可。有两个FLIP可以参考,...

2024-08-26 09:02:05 1545

转载 取代大数据开发,又一新兴岗位在崛起!这才是数据人未来5年最好的就业方向!...

随着GPT大热“AI大模型”无疑是最火爆的话题!Google、百度、腾讯等等巨头互联网公司,无不在布局人工智能技术和市场,甚至还有60k*16的高薪,挖掘会使用 AI 的数据人才!作为数据人,如何不被时代抛弃,享受AI技术带来的红利?!????知乎知学堂特发起:行业前沿资源——AI大模型公开课已为本号粉丝开通免费领取权限预计24小时后关闭通道!速进!AI大模型-重塑数据人核心竞争力(不限年龄!不限岗...

2024-08-24 09:30:36 591

原创 Apache Paimon走在正确的道路上|一些使用体验和未来判断

Apache Paimon这个框架大家应该都不陌生了。在实际工作中大家应该多多少少都用到,这个文章是一个简单的使用体会。不涉及湖框架的拉踩,我们的着眼点是解决实际问题。我来结合自身体会跟大家说说Paimon这个框架和对未来的一些判断。大家可以参考,错了也不要怪我误导你????。首先湖框架在发展之初解决的几个问题:Schema Evolution、流读流写、批读批写、ACID等几个通用的能力。但是我们必须...

2024-08-20 09:31:00 1588

原创 Doris Compaction生产环境最佳实践这个问题该怎么回答?

这是我辅导的同学遇到的一个面试问题,关于Doris等OLAP的生产环境最佳实践在未来数据开发的面试占比逐渐变高。你可能有要意识的收集一下这方面的生产环境最佳实践。这个问题只要你用Doris,生产环境大概率会用到,面试官问你也理所应当。关于Doris Compaction 优化的原理可以参考:《Apache Doris Compaction优化百科全书》。理论是我们进行优化的基础,除了上面文章提到的...

2024-08-12 09:00:09 1606

转载 零售消费数据分析案例|七秒易购供应链管理全流程解析(附下载)

在当今商业世界,数字化转型已成为推动供应链创新和提高企业竞争力的关键力量。对于任何企业而言,供应链的效率和响应能力直接关系到成本控制、市场适应性以及客户满意度。供应链管理的痛点通常聚焦于库存精准控制、需求的准确预测以及物流的高效率。库存管理关键在于平衡存货水平,以减少过剩带来的成本和避免缺货影响销售;需求预测则是确保产品供应与消费者需求同步;物流效率关乎成本控制和配送速度,企业需在保证服务品质的同...

2024-08-06 09:00:45 901

原创 Flink 1.20 版本发布,一些值得注意的特性!

8月2日,Flink1.20版本发布,一边听歌一边看我分析。(戳上面????听歌)本文基于官方网站的Release Note做一个简单的分析,看看哪些内容是更加值得我们关注的。在定位上,这个版本是一个2.0版本之前的过渡版本,也是1.x时代最后一个版本。这个版本中有很多细小的变动,和一些MVP版本的开发,那站在用户的角度,比较值得注意的几个特性有哪些:物化表1.20版本引入了一个 物化表(Materia...

2024-08-05 09:00:19 1930

原创 简简单单一份大数据面经

这是最近辅导的一位同学的面经,最终拿到了某头部公司的Offer。所有问题看起来并不难,但是答好不容易。文中删掉了部分涉及项目隐私问题。框架部分JVM垃圾回收机制HashMap与HashTable区别Hbase中rowkey设计原则?工作中怎么设计rowkey的Flink提交流程Flink水位线机制Flink状态与状态后端Flink如何实现精准一次语义Flink的checkpoint...

2024-08-03 10:49:44 1260

转载 Apache Doris 入门 10 问

基于 Apache Doris 在读写流程、副本一致性机制、 存储机制、高可用机制等方面的常见疑问点进行梳理,并以问答形式进行解答。在开始之前,我们先对本文相关的名词进行解释:FE:Frontend,即 Doris 的前端节点。主要负责接收和返回客户端请求、元数据以及集群管理、查询计划生成等工作。BE:Backend,即 Doris 的后端节点。主要负责数据存储与管理、查询计划执行等工作。BDBJ...

2024-07-26 09:00:17 1083

转载 关于Apache Paimon你需要知道的基本知识

基本概念Snapshot快照捕获表在某个时间点的状态。用户可以通过最新的快照来访问表的最新数据。通过时间旅行,用户还可以通过较早的快照访问表的先前状态。PartitionPaimon 采用与 Apache Hive 相同的分区概念来分离数据。分区是一种可选方法,可根据日期、城市和部门等特定列的值将表划分为相关部分。每个表可以有一个或多个分区键来标识特定分区。通过分区,用户可以高效地操作表中的一片记...

2024-07-25 09:00:50 1095

原创 互联网末法时代的一些思考

这篇文章也是临时起意,很长一段时间没写个人思考类的文章,主要原因也是时间完全不够用。随着年龄的增长,看待问题的视角也逐渐发生变化,例如从关注现象到关注动机,从关注结果到关注起因,2021年的时代我曾经写过一篇文章《互联网最坏的时代可能真的来了》。当时写文章的目的也是工作有几个年头后,看待事物更加愿意去思考背后的本质。如果说让我对自己进行评价,说出两个最大的优点,我会说一是经常思考,二是执行力强,二...

2024-07-14 02:35:28 1846

原创 最近换工作的一些启示,清华学姐篇

最近更新频率慢下来了,一部分原因是沉迷运动不能自拔,还有一部分原因是业余分出来很大的精力来拓展个人的边界,希望在工作之外取得一些成绩,写作上耽误了不少,很难做到日更。所以整体上今年更新频率较低,但是尽量保证每次写出来的东西都能给人带来一些帮助。这篇文章也是临时起意在手机上编辑的,思路可能不是很清晰,文字斟酌的也不够严谨,大家将就看。今天要分享的是辅导一个读者找工作的过程,主人公个人履历很不错,正如...

2024-07-08 20:29:11 1703

转载 Doris 2.0 | 高并发点查询性能提升!

背景Doris 基于列存格式引擎构建,在高并发服务场景中,用户总是希望从系统中获取整行数据。但是,当表宽时,列存格式将大大放大随机读取 IO。Doris 查询引擎和计划对于某些简单的查询(如点查询)来说太重了。需要一个在 FE 的查询规划中规划短路径来处理这样的查询。FE 是 SQL 查询的访问层服务,使用 Java 编写,分析和解析 SQL 也会导致高并发查询的高 CPU 开销。为了解决上述问题...

2024-07-03 19:41:49 1255

转载 收藏版|数据湖在快手的应用实践

导读本文将分享数据湖在快手的应用实践。文章从业务使用方的视角,全面回顾了数据湖(Hudi)在快手内部的应用推广历程,给业务开发带来的效率提升和成本优化,以及在实际应用中如何与技术团队紧密配合将 Hudi 打造为覆盖全公司、赋能多场景的核心基础设施。本次分享主要包括:1.数据湖在快手的应用历程2.数据湖在快手的应用案例3.Q&A01数据湖在快手的应用历程1.业务面临的问题与挑战(1...

2024-07-01 09:30:31 1115

原创 除了写代码,有哪些技能可以让你突破瓶颈期?

深夜头脑清醒,码一些字给需要的人。2023-2024年我在B站和公众号的分享中多次提到一个词,叫做「瓶颈期」,不知道多少读者注意到了。我之前表达的意思是,一个普通人在你漫长的职场生涯或者人生路径上,大概率会遇到无法突破的平台期或者瓶颈期。这个过程我也遇到了,而且非常痛苦。在这个过程会带来情绪不稳定、思维极端、甚至抑郁等等负面影响。你需要在「向内求」与「向外求」之间找到平衡,尽量做到不伤害别人,不伤...

2024-06-26 01:05:06 1804

原创 有人给我提了一个「差不多就行」的需求?

这是一个知识星球同学提的问题,这个同学是个新人。首先赞叹一句,这个问题提的相当有水平。从这个问题,大家就可以看到现在的新人的水平都在什么程度,在某种程度上超过行业内的很多老员工。这个问题如下,部分脱敏:某大厂某业务的数据团队,接触业务需求过程中,也对接了一些算法团队的需求,产生了些疑问,目前算法和数据交接的部分遇到如下问题:问题一验数重度依赖数据侧,需要加工一份数据计算每个小时的最新价格,考虑状态...

2024-06-24 22:19:36 1470

转载 Apache Paimon要赢了?湖仓一体实时化时代全面开启!

摘要:本文整理自阿里云开源大数据平台负责人王峰(莫问)老师在5月16日 Streaming Lakehouse Meetup · Online 上的分享,主要介绍在新一代湖仓架构上如何进行实时化大数据分析。内容主要分为以下五个部分:1. Data Lake + Data Warehouse = Data Lakehouse2. Apache Paimon–Unified Lake Format3...

2024-06-16 19:13:21 977

转载 为了摸鱼,我用AI自动清洗数据

数据清洗,是检测和纠正不合理数据的过程。在大多数情况下,数据分析前都需要这个过程,将错误的、不准确的、缺失的以及多余的数据进行修改或删除。具体来说,数据清洗会面临以下四个问题:存储格式不一致数据不完整存储形式不一致存储位置不一致为了有更多的时间摸鱼,最近我尝试了用 ChatGPT 解决第一个问题,「客户名称大小写不一致」。我先将需要处理的数据和提示词写出来,然后分析为什么这样写。<secti...

2024-06-12 09:31:01 994

转载 收藏级|蚂蚁金服EB级大数据治理最佳实践

导读本文将分享蚂蚁集团在大数据治理实践过程中沉淀的经验。主要分成四个部分:1.数据治理概况2.数据质量治理3.数据计存治理4.对数据治理未来的思考01数据治理概况业界对于数据治理的定义有很多种,蚂蚁在数据治理时主要关注对企业运转非常关键的架构、安全、合规、质量和价值这五个方面。为什么是这五个方面呢?首先,要保证整个数据在业务上是可以流转起来的、是可用的,包含两个基本要求:首先是要符合最近...

2024-06-04 09:30:37 931

转载 (待会删)yyds,大数据开发请低调使用!

2024年,AI进一步爆发。AI+办公软件,引发新一轮生产力革命!大部分老板都想办法在推进自动化办公。打工人沉浸式发慌:“我的饭碗真的会被AI取代吗?”原来需要花费几小时做Excel、Word,记各种函数公式……现在AI分分钟搞定!PPT模版再也不用付费买,AI秒出PPT内容和模版,瞬间高大上!还能出具各种报告!当办公技能加上AI,职场人的焦虑瞬间被点燃!事实上……AI不会让你失业,「会用AI的人...

2024-06-01 11:45:40 890

转载 从 0 到 1 构建一站式数据开发治理平台

导读火花思维作为在线教育领域的佼佼者,深知数据对于决策和运营的重要性。为进一步释放数据资源的价值,公司从 0 到 1 构建了一站式数据开发治理平台,实现了数据集成、数据开发、数据分析、数据服务等全流程整合,为公司的长远发展奠定了坚实的数据基础。主要内容包括以下几个部分:1.背景2.产品简介3.关键技术与创新点4.实施与运营5.成效与收获6.总结与展望01背景火花思维是一家专注于青少年...

2024-05-27 09:01:50 806

原创 面试中的数据模型设计问题该怎么回答?

面试中关于数据模型设计是一个很常见的问题,这个问题很宽泛、看起来很简单,但是想回答好并不容易。这篇文章很短,我们就简单聊一下这个问题。问题本身模型设计本身是一个开放性的问题,什么意思呢?这个问题并没有100%对的标准答案。当然各种社区有很多关于模型设计的方法论、规范性质的文章可以参考,但是这些理论不足以支持你拿到一个面试官满意的评价。这个问题到底该怎么回答?下面这个思路供大家参考。先说核心基础内容...

2024-05-15 09:30:44 1666

转载 第一批用AI工作的大数据开发,已经碾压同事了!

2024年,AI进一步爆发各种各样的AI工具也汹涌而至!用AI做Excel、一键生成PPT、AI生成方案……职场人的焦虑瞬间被点燃!自己的工作,真的会被AI取代吗?事实上……AI不会让你失业,“会用AI的人”才能让你失业!为了帮助各位打工人提升职场竞争力,????知乎知学堂特发起:行业前沿资源——AI智能办公训练营掌握20+热门AI工具,让工作效率飞速提升!已为本号粉丝开通免费领取权限,预计24小时...

2024-05-08 11:40:21 664

原创 Apache Paimon毕业,湖仓架构的未来发展趋势!

北京时间 2024 年 4 月 16日,开源软件基金会 Apache Software Foundation(以下简称 ASF)正式宣布 Apache Paimon 毕业成为 Apache 顶级项目(TLP, Top Level Project)。经过社区的共同努力和持续创新,Apache Paimon 在构建实时数据湖与流批处理技术领域取得了重大突破,数据湖步入实时新篇章!恭喜Paimon进入一...

2024-04-30 12:55:51 1567

转载 B站数据治理平台建设

导读Bilibili 是一家数据驱动的公司,数据在员工日常工作中至关重要。B 站内部有60% 的员工日常参与用数和数据决策,数据平台的建设直接影响了他们的工作效率。本文将介绍 B 站大数据开发治理平台产品的设计心得。主要内容包括以下几大部分:主要内容包括以下几大部分:1. B 站的用数场景及数据开发治理平台的概况介绍2. 基于价值体系的数据地图产品建设3.基于抽象配置的数据治理产品建设4.核心...

2024-04-21 11:21:30 476

原创 数据治理要不要在简历中体现?

数据治理要不要在简历中体现?数据治理在简历中要体现什么内容?上周日给知识星球的同学们组织了一次面试分享,邀请了2位拿到不错offer的同学分享了自己的面试和找工作经历。数据治理会出现在什么样的简历中?其中提到了一个很重要的点,数据治理部分在简历中如何体现?在工作和面试中占据什么样的地位?其中分享的同学给出了一个定性的结论,一般超过3-5年的同学,未来你的简历中多多少少都要涉及关于数据治理的内容,这...

2024-04-17 09:30:53 1460

原创 双非本科大厂完全没机会?爆砍40w+年薪案例!

该同学各个方面的背景并不是十分突出,不是名校。但是为找工作做了充足的准备,包括项目中的难点梳理和可能遇到的面试问题,所有工作都做在了前面。目标非常明确,行动力强。愿意花时间去研究训练营中项目用到的技术栈和原理。根据建议去对应的技术模块下整理知识点。这个同学自己总结了一个文档,根据训练营中的项目,以及个人项目总结面试点。包括:业务知识、架构图、项目流程图、项目中的集群数据规模、开发中遇到的技术问题等等。

2024-04-07 12:18:18 1547 3

原创 金三银四还有没有?

今天这个文章是求职系列,我们来谈一下当前的择业环境和每个人要做的准备。我在2021年底曾经发过一篇文章《互联网最坏的时代可能真的来了》,大家有兴趣的可以点进去看一下。事实上这个最坏的时代来的如此迅速,仅仅1年后整个互联网行情急转直下,很多同学根本来不及反应。2023年很多读者找我做过咨询,很不幸的是很多人因为温水煮青蛙时间太长,技术储备、职场技能、人脉储备不足,不得已退出了这个行业。这些案例真实发...

2024-04-07 09:15:33 965

原创 Flink1.19版本生产环境应用解读!

300万字!全网最全大数据学习面试社区等你来!Flink1.19版本更新了,我们按例对最新版本的Flink中的核心能力进行一下解读。我们的重点还是生产环境应用和需要注意的问题,以及对未来的一些判断。本次更新涉及到SQL/Runtime/CheckPoint这三个方面的改进,这也是目前整个引擎开发最重要的几个方向。SQL能力优化SQL能力上的优化需要大家特别关注的三个能力分别是:源表自定义并行度、s...

2024-03-20 20:51:57 1799

转载 Apache Doris 2.1.0 版本发布,复杂查询性能提升 100%!

亲爱的社区小伙伴们,我们很高兴地向大家宣布,在 3 月 8 日我们迎来了 Apache Doris 2.1.0 版本的正式发布,欢迎大家下载使用。在查询性能方面, 2.1 系列版本我们着重提升了开箱盲测性能,力争不做调优的情况下取得较好的性能表现,包含了对复杂 SQL 查询性能的进一步提升,在 TPC-DS 1TB 测试数据集上获得超过 100% 的性能提升,查询性能居于业界领先地位。在数据湖分析...

2024-03-18 17:52:52 722

转载 生产实践|腾讯欧拉平台数据血缘架构

导读本文将介绍腾讯欧拉数据血缘的建设及应用。主要内容包括以下几个部分:1.背景和目标2.项目架构3.模块化建设4.应用场景5.问答环节01背景和目标腾讯欧拉数据平台,是一款基于 DataOps 理念,实现生产即治理的一站式数据平台,主要包括三个子产品:首先是资产工厂,负责整体的数仓建设、数仓模型的开发;第二块是欧拉的治理引擎,负责全链路成本的数据治理;第三块是数据发现,负责元数据的管理...

2024-03-14 09:30:51 346

原创 Paimon新版本核心特性和生产实践解读

最近Apche Paimon发布了最新版本0.7.0,在这个版本中,Paimon对一些新特性进行了增强。Paimon在数据湖领域发展迅速,未来会在整个数据开发领域占有很重要的地位,今天我们来盘点一下当前能力的特点以及在生产环境中的使用情况。Look up join在实时数据开发领域,Look up join一般被认为等效于「维度表关联」。在一些企业的分享中,利用Paimon进行维度表关联,是一个比...

2024-03-09 18:00:46 1353

转载 存算分离|Flink2.0状态存储演进和优化

01引言我们在这个时间点重新聊状态存储这个话题是因为状态存储是流计算的核心。Flink 从 2017 年 VLDB 发表奠基之作介绍状态存储[1]发展至今,Flink 在状态这部分的架构基本并没有太大的变化。但时代是在不断演进和变化的,无论部署模式、存储模式,还是作业负载,都已经发生了翻天覆地的变化。从部署模式看,我们经历了 map-reduce 时代 Cluster 上没有资源隔离的部署,到云...

2024-03-04 18:05:52 341

原创 曾经爆火的「流批一体」现在怎么样了?

2021年和2022年,曾经有一个概念在整个数据开发方向传播,不管是懂和不懂的人,都能扯上一两句。那就是大家耳熟能详的「流批一体」。时至今日,已经很少有人再提起这个话题,这个概念在21、22年很多面试中也会被面试官问到,经常有同学问我这个问题,该怎么回答?今天咱们稍微聊聊这个话题。当时这个概念被很多人提起,大概的意思就是这样:期望一套代码能同时在批处理和流处理中运行。这个概念神奇在哪呢?这个概念最...

2024-02-20 17:32:50 1268 1

大数据面试大总结300页.zip

大数据面试大总结300页.zip

2021-07-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除