- 博客(2055)
- 资源 (1)
- 收藏
- 关注
原创 Apache Paimon大厂面试必备-进阶篇(二)
Paimon面试必备系列参考:Apache Paimon面试必备系列-基础篇Apache Paimon大厂面试题必备-进阶篇(一)这是一个系列文章,包含基础篇、原理篇、进阶篇、实践篇等至少4+个系列。欢迎收藏、追更。本篇属于进阶篇。本系列内容在知识星球同步更新,同步答疑,冲刺中大公司、高阶岗位的同学随时在知识星球提问。Paimon是如何管理快照过期的?Paimon writer 每次提交时会生成1...
2025-01-13 08:30:16 356
原创 Apache Paimon大厂面试题必备-进阶篇(一)
Paimon面试必备系列参考:Apache Paimon面试必备系列-基础篇本篇属于进阶篇。这是一个系列文章,包含基础篇、原理篇、进阶篇、实践篇等至少4+个系列。欢迎收藏、追更。本系列内容在知识星球持续更新,同步答疑。冲刺中大公司、高阶岗位的同学随时在知识星球提问。Paimon的时效性和一致性是如何保证的?提到Paimon的时效性与一致性,就必须要提到Paimon的快照文件,快照(snapshot...
2025-01-06 08:30:39 595
原创 【全网首发】Apache Paimon大厂面试必备系列-基础篇
这是一个系列文章,包含基础篇、原理篇、进阶篇、实践篇等至少4+个系列。欢迎收藏、追更。本系列的文章非常「功利」,完全着眼于面试,当然读者完全可以把它当成学习完Paimon后的自我检验也是可以的。文章较长,推荐收藏。本篇文章是基础篇。基础篇是入门Paimon必须要掌握的部分。本系列内容在知识星球同步更新,知识星球内同步答疑,冲刺中大公司、高阶岗位的同学随时在知识星球提问。本文部分参考了Paimon官...
2025-01-02 08:30:10 884
转载 请所有架构师立即拿下软考证书(政策风口)
????注意注意!????分享一个免费,又干货满满的2025软考最新通关备考群!进群听课免费领1⃣️2天软考大咖VIP公开课2⃣️软考2025新版通关资料包????3⃣️7天1V1备考指导+考试专业选择4⃣️历年真题库+命题趋势+核心必考点+万能通关技巧软考证书作为计算机行业公认的王牌证书,近几年每年都有上百万人报名。其中的软件架构设计师和软件设计师则是技术领域含金量最高的两个科目,对于研发、测试、产品、数据、运...
2025-01-01 09:04:38 240
转载 Shuffle再见!Spark SPJ高效Join优化解密
随着 Spark >= 3.3(在 3.4 中更加成熟)中引入的存储分区连接(Storage Partition Join,SPJ)优化技术,您可以在不触发 Shuffle 的情况下对分区的数据源 V2 表执行连接操作(当然,需要满足一些条件)。Shuffle 是昂贵的,尤其是在 Spark 中的连接操作中,主要原因包括:•Shuffle 需要跨网络传输数据,这是 CPU 密集型的。•在 S...
2024-12-31 09:01:35 262
原创 DWD三种事实表建模方法和注意事项
明细粒度事实层(DWD)通常分为三种:事务事实表、周期快照事实表和累积快照事实表。事务事实表用来描述业务过程,跟踪空间或时间上某点的度量事件,保存的是最原子的数据,也称为原子事实表。周期快照事实表以具有规律性的、可预见的时间间隔记录事实。累积快照事实表用来表述过程开始和结束之间的关键步骤事件,覆盖过程的整个生命周期,通常具有多个日期字段来记录关键时间点。当累积快照事实表随着生命周期不断变化时,记录...
2024-12-26 09:02:38 1124
原创 Flink2.0未来趋势中需要注意的一些问题
手机打字,篇幅不长,主要讲一下FFA中关于Flink2.0的未来趋势,直接看重点。Flink Forward Asia 2024主会场有一场关于Flink2.0的演讲,很精彩,官方也发布了一些关于Flink2.0的展望和要解决的问题。1.0时代和2.0时代避免不了一些兼容性改动,例如配置文件、状态兼容以及一些常见的API,当然这些问题都不是用户需要考虑的,平台要做好升级。那么作为普通的开发者应该注...
2024-12-18 09:30:33 1664
原创 「Time Travel时间旅行」本来应该带给数据开发领域的改变
今天文章短。主要聊一下湖框架中的Time Travel时间旅行。我们简单的说,所谓的Time Travel其实就是框架本身记录了旧版本的数据,能让用户查询到某个时间节点的数据。这个能力在所有的湖框架中都支持。我们拿Hudi和Paimon举例。在Hudi中,每次对Hudi表的DML操作,都会生成一个timeline instant commit文件,这个文件中会记录本次提交操作了具体哪些文件,所以如...
2024-12-12 09:30:41 1557
原创 Flink的Exactly Once语义到底是什么意思?和去重有没有关系?
Flink的Exactly Once语义到底是什么意思?和去重有没有关系?今天更新一个提高班同学面试中的问题。这个问题是关于Flink的Exactly Once语义的。这个问题的背景是,之前大数据提高班的同学在实际工作中在精确一次场景中错误的理解了Flink的Exactly-Once语义,一直使用至今。在面试中被面试官抓住这个问题一顿毒打,最终面试失败告终。今天就是简单回答一下这个问题。首先,我们...
2024-12-09 09:29:20 1640
转载 真的建议所有架构师尽快搞个软考证书!(红利期)
重大利好!奉劝所有程序员,尽快搞一个软考证书:国家认证、政策福利多、含金量更高!非常适合IT人升职加薪、扩宽职业道路,享受落户/购房、评职称、投标评标、涨退休费、现金补贴等政策福利的高性价比证书!????️ 在职人士想一次拿证,强烈推荐一个免费,且有超多干货的【软考VIP通关学习群】限时免费入群????入群即领大佬软考在职过关规划课+⚡️最新命题趋势新教版软考通关必备资料包(完课领)历年真题库+核心必考点+论...
2024-12-03 09:30:35 734
转载 Paimon性能优化小总结
主键表优化写入作业优化Paimon写入作业的瓶颈通常由小文件合并引起。默认情况下,Flink每次做检查点时,如果分桶中小文件数量过多或使用了lookup变更数据产生机制,则需要等待当前的Paimon小文件合并过程结束。如果等待时间过长,或部分并发的检查点出现了长尾,会造成反压,影响作业效率。您可以从以下角度进行优化:调整Paimon Sink并发通过SQL Hints设置sink.parallel...
2024-12-02 09:30:41 809
转载 AI时代的数据底座,StarRocks 2024 年度技术峰会带你探索湖仓架构!
StarRocks 社区的年度盛会——StarRocks Summit Asia 2024 将于 12 月 7 日在北京隆重登场!StarRocks 社区作为连接用户、平台方、业务方、技术爱好者与学术人员的开放平台,始终致力于打造标准化的行业解决方案,让每一位参与者都能在实践中汲取经验,在交流中碰撞创新。在过去三年的交流中,我们与数百家社区用户共同探讨了大数据领域的主要挑战:随着实时分析需求的激增...
2024-11-27 09:30:34 1061
原创 Flink GC/数据分发/数据倾斜/并行度问题小合集!
今天回答几个问题。这个是一个星球同学提的,我们长话短说。适用于实际工作以及面试。文末有知识星球二维码,扫码加入。关于GC这里特指Full GC。首先Flink中的TaskManager的GC监控是一个非常重要的监控,GC频繁会导致你的任务处理速度降低,发生TM lost,任务fail over,更严重的会直接OOM,任务挂掉。一般我们通过Promethus这样的框架去监控Flink任务,最容易监控...
2024-11-26 09:31:02 1706
转载 实时湖仓智能优化实践|腾讯
导读本次分享题目为腾讯大数据实时湖仓智能优化实践。将围绕下面四点展开:1.湖仓架构2.智能优化服务3.场景化能力4.总结和展望01湖仓架构腾讯大数据的湖仓架构如下图所示:这里分为三个部分,分别是数据湖计算、数据湖管理和数据湖存储。数据湖计算部分,Spark 作为 ETLBatch 任务的主要批处理引擎,Flink 作为准实时计算的流处理引擎,StarRocks 和 Presto 作为即...
2024-11-25 09:30:41 840
原创 数据开发SQL写得好有没有用?
数据开发SQL写得好有没有用?要掌握到什么程度?这个问题是知识星球同学们经常问我的问题。今天短短的更新一下,就回答这么一个问题。首先,这个问题放在不同的场景中的答案可能和大家的实际想象的不太一样。我们从分别从比较宏观和具体的场景出发,分别回答一下这个问题。在日常的工作中,数据开发这个方向发展到今天,基本上都已经SQL化了,高度集成和易用已经成了任何一个框架都优先考虑的问题。所以,当然这作为一个基本...
2024-11-18 10:40:02 2062
转载 Spark 4.0|自适应查询(AQE)优化革命!
Apache Spark 4.0 中的自适应查询执行(AQE):查询优化的革命随着大数据处理的不断进步,对更智能、更高效的查询优化的需求从未如此迫切。自适应查询执行(AQE)是 Apache Spark 3.0 中引入的一项突破性功能,并在 Spark 4.0 中得到了进一步优化。AQE 允许 Spark 通过实时优化查询性能,适应大数据的动态和不可预测性。这篇博客深入探讨了 AQE 是什么、其关...
2024-11-12 15:50:18 1303
转载 【收藏版】抖音集团指标管理与消费体系建设实践
导读本文将介绍抖音集团管理数据、应对数据质量与效率挑战的策略,重点聚焦于如何通过指标服务提升数据产品的稳定性和可复用性。今天的介绍会围绕下面五点展开:1.指标建设的痛点2.指标管理实践3.指标生产实践4.指标消费实践5.总结展望01指标建设的痛点1.面临的数据挑战抖音集团,作为字节跳动国内信息和服务业务的核心板块,旗下拥有抖音、今日头条、西瓜视频等众多知名产品。相信大家的手机里都安装...
2024-11-07 17:58:41 1236
转载 10万字、近20家企业BI智能分析决策合集
如今,企业组织正面临越来越多样化的挑战。一方面,需要构建跨越周期的组织能力,应对可持续发展的长期性问题;另一方面,需要打造敏捷应变的短期能力,来迎接当下大量的不确定性因素。越来越多的企业从过去依赖人脑的战略规划,逐步走向数据驱动的战略迭代,以抵御多变风险,提升韧性增长力。这其中,挖掘数据价值,驱动业务决策已成为企业关注的重点。正所谓“谁来呼唤炮火?应该让听得见炮声的人来决策。”要在不确定的VUCA...
2024-11-06 09:29:12 1209
转载 【排查问题/面试必备】Doris SQL执行流程全解析
本文从一个SQL查询语句出发,从使用层面以及源码层面解析SQL的执行过程。Doris把查询规划所有的部分,都放到了一个FE里面,都会由FE来完成。FE来根据用户的查询生成一个完整的逻辑规划,然后这个逻辑规划最后生成一个分布式的逻辑规划。当FE生成好查询计划树后,BE对应的各种Plan Node(Scan, Join, Union, Aggregation, Sort等)执行自己负责的操作即可。整个...
2024-11-04 11:36:46 1389
转载 强烈建议尽快搞个软考证!(重大利好)
????门槛低、起薪高、就业广、有证终身受益!强烈建议尽快搞个软考证,政策重大利好:✔︎年薪60W起;✔︎????5-25W/年补贴;✔︎升职/就业更快;✔︎享落户福利;✔︎以考代评职称;✔︎3600个税抵扣......如今,软考证书已经成为计算机人才的必考证书。不仅是架构/开发/软件多技术岗位的敲门砖,在求职、晋升、考编和接项目时,也更受青睐!在如今降薪裁员的浪潮下,很多技术人才都通过软考证书,实现了职场...
2024-11-03 09:30:38 1237
转载 Paimon x StarRocks 实时湖仓落地实战
摘要:本文整理自喜马拉雅数仓专家王琛老师在8月3日 Streaming Lakehouse Meetup Online(Paimon x StarRocks,共话实时湖仓架构)上的分享。将介绍喜马拉雅直播的业务现状及数据仓库架构的迭代升级,重点分享基于 Flink + Paimon + StarRocks 实现实时湖仓的架构及其成效。我们通过分钟级别的收入监控、实时榜单生成、流量监测和盈亏预警,大...
2024-11-01 09:10:55 1276
转载 Paimon的Changelog Producer到底有什么用?
很早以前我在一篇文章中提到流批落地的方案,其中之一就是在存储引擎上实现流批的能力。可以说Paimon的Changelog能力是Paimon能够成为流批框架落地最佳选型的核心因素之一。Paimon本身提供了4种Changelog生成方式。他们有什么不同?目的Chaneglog producer 的主要目的是为了在 Paimon 表上产生流读的 changelog, 所以如果只是批读的表是可以不用设置...
2024-10-31 09:01:21 1159
原创 Apache Paimon主键表的一些最佳实践
今天我们说说Paimon主键表的一些使用上的注意事项。一、主键表主键表是Paimon的一种表类型。用户可以插入、更新或删除表中的记录。说的直白点就是,允许你设置唯一主键,然后覆盖更新。Bucket选择无论分区表还是未分区表,Bucket都是最小的读写单元。每个Bucket包含一个LSM树及其变更日志文件。用户可以通过提供bucket-key选项来指定分桶列。如果未指定bucket-key,那么就根...
2024-10-28 22:12:08 2131
原创 大数据湖仓一体架构未来思考
湖仓一体架构是最近1-2年时间开始频繁出现在数据开发领域的新名词。也是各大公司竞相投入的对象。网络上关于湖仓一体架构的实践文章很多,看得也很眼花缭乱。我们今天站在一个「接地气」的角度,来说一说湖仓一体架构中未来需要关注的核心框架有哪些。文章内容也没有经过仔细的斟酌,完全是一点不成熟的想法,而且站的角度不是高屋建瓴的而是从下往上的。一个基本判断是湖仓一体架构在形式上不止一种大家可以从网上看到很多关于...
2024-10-22 18:13:18 1988
转载 Apache Doris 3.0核心特性和生产实践解读
上周Doris社区发布了Doris3.0版本,3.0版本被定位成湖仓一体演化路线上的重要里程碑版本。同时Doris官方社区已经更新了3.0版本的文档。3.0新特性很多,我们还是着重讲新特性中哪些是和真正开发息息相关的。哪些是需要你特别需要关注的。存算分离架构从 3.0 版本开始,Doris 开始支持存算分离模式,用户可以在集群部署时选择采用存算一体模式或存算分离模式。存算分离对计算与存储进行解耦,...
2024-10-21 09:02:17 1497
转载 从Clickhouse到Doris,湖仓一体架构升级实践
本文导读快手 OLAP 系统为内外多个场景提供数据服务,每天承载近 10 亿的查询请求。原有湖仓分离架构,由离线数据湖和实时数仓组成,面临存储冗余、资源抢占、治理复杂、查询调优难等问题。通过引入 Apache Doris 湖仓一体能力,替换了 Clickhouse ,升级为湖仓一体架构,并结合 Doris 的物化视图改写能力和自动物化服务,实现高性能的数据查询以及灵活的数据治理。作者|快手大数据架...
2024-10-16 09:30:46 1292
转载 <From官网>Paimon你必须要知道的核心概念
Paimon这个框架越来越多的出现在大家的视野中,现在很多公司都在生产环境开始使用或者调研中,未来大家需要掌握的技能又多了一个,这个系列文章我会从官方的文档中翻译一些必须要懂的核心知识点,希望对大家未来工作和面试有帮助。一、认识PaimonApache Paimon的架构:如上架构所示,读/写Paimon支持多种读/写数据和执行OLAP查询的方式。对于读取,它支持消费数据从历史快照(批处理模式)从...
2024-10-12 20:32:53 1222
原创 自助者天助之|记录大数据提高班锦鲤妹妹从小公司进入中大厂的经历!
深夜码字,这篇文章记录的是大数据提高班带的一个小学妹,我们下文称她为锦鲤妹妹。锦鲤妹妹的个人学历和履历背景没有大家想象的那么好,普通学校,普通的工作履历。我们直接进入正题,关于学习的过程中做得好的地方供大家借鉴。PS:不要以为你们长得好看我就不敢凶你们????首先,在对待学习的态度上。 互联网发展至今,加上这两年的大环境问题,已经有相当多的同学做了妥协甚至躺平。锦鲤妹妹在学习态度上,在我带过的这些同学当...
2024-09-25 08:02:29 2141
转载 【查询优化】Doris性能优化不要慌,再看看这里!
《Doris性能优化不要慌,再看看这里!- Join优化》《Doris性能优化不要慌,再看看这里!- 导入优化》这篇是第三部分查询优化。OLAP查询对于高并发查询,其核心在于如何平衡有限的系统资源消耗与并发执行带来的高负载。换而言之,需要最大化降低单个 SQL 执行时的 CPU、内存和 IO 开销,其关键在于减少底层数据的 Scan 以及随后的数据计算。Doris能够实现高并发查询的能力主要是通过...
2024-09-18 09:30:37 1985
转载 Doris性能优化不要慌,再看看这里!
我们在之前的《Doris性能优化不要慌,看看这里!》详细介绍了Doris Join的优化策略。今天的文章是第二部分,关于Doris导入优化。为提供快速的数据写入支持,Apache Doris 存储引擎采用了类似 LSM Tree 结构。在进行数据导入时,数据会先写入 Tablet 对应的 MemTable 中,MemTable 采用 SkipList 的数据结构。当 MemTable 写满之后,会...
2024-09-12 09:31:00 2004
转载 抱歉,年前我劝各位真的别轻易离职......
国内大模型“落地战”终于打响!一些大模型企业开始赚钱了最高单个项目金额近2亿元人民币除科大讯飞、阿里云、华为等巨头公司之外,很多中小企业也陆续进场各个机构与企业开始大刀阔斧招揽 AI 人才甚至开出80k*16的高薪,挖掘会使用 AI 的数据人才!作为数据人,如何不被时代抛弃,享受AI技术带来的红利?!????知乎知学堂特发起:行业前沿资源——AI大模型公开课已为本号粉丝开通免费领取权限预计24小时后...
2024-09-11 09:30:52 1455
原创 Doris性能优化不要慌,看看这里!
因为Doris这个框架越来越火,行业内已经成为了必不可少的框架,面试当然也是重点考察。Doris性能优化不要慌,分为几个部分掌握回答就好了。关于Doris的优化是一个很大的课题,我们可以从几个方面进行回答。例如:导入、查询、Join优化等等。我们起一个小的系列,专门回答这个问题。我们先从Join优化说起。一、Doris数据划分在介绍Doris中多种Join方式及优化原理之前,先回顾下Doris的数...
2024-09-08 14:54:21 3534
原创 面试界经典的「如果xx怎么办?」问题回答思路
大家好,又是没更新的一周。周末早早爬起来写了一点字,然后发出来,文章很短。本次是回答知识星球的一个问题。问题如下:前两个问题都很好回答,没什么难度。重点是后面两个问题。「如果碰到Binlog丢失,有修复机制吗?」「如果出现问题,如何解决?」在面试界有一类经典的问题就是「如果」类问题,例如我们上面的那两个问题。这个也是我在给很多同学做模拟面试时候提的问题。首先,「如果」类问题已经预设了这个问题已经...
2024-09-07 10:48:15 1952
原创 技术类面试,面试官的决策标准
最近更新频率变低,因为实在是抽不出整块写作的时间。今天的话题是给知识星球和大数据提高班同学做一对一的时候经常被问到的问题。我简单整理了一下,语言未经过仔细组织,直接手机打字的,有些不通顺的地方能理解意思就好。提前需要说明几点:文章中的角度是站在面试官的角度,你只有知道他在面试的时候到底想要什么,才能针对性的去准备,达到事半功倍的效果;面试等于考试,不认真准备几乎必挂,跟你的学历、背景无关;我们讨论...
2024-08-28 21:54:58 2580
原创 关于Flink内存分配核心知识点
这个问题同样也是之前辅导过的同学的面试问题,这个问题非常接地气且考察面试者的实践经验。事实上,这也是我们大数据提高班的Flink专项提高部分内容。下面我列举的这些就是核心,能答出这些重点即可。内存模型在Flink1.9和Flink1.11版本做了非常大的改动,主要原因是为了统一Batch和Streaming的内存配置。首先我建议大家只看Flink1.11版本的内存配置即可。有两个FLIP可以参考,...
2024-08-26 09:02:05 2597
转载 取代大数据开发,又一新兴岗位在崛起!这才是数据人未来5年最好的就业方向!...
随着GPT大热“AI大模型”无疑是最火爆的话题!Google、百度、腾讯等等巨头互联网公司,无不在布局人工智能技术和市场,甚至还有60k*16的高薪,挖掘会使用 AI 的数据人才!作为数据人,如何不被时代抛弃,享受AI技术带来的红利?!????知乎知学堂特发起:行业前沿资源——AI大模型公开课已为本号粉丝开通免费领取权限预计24小时后关闭通道!速进!AI大模型-重塑数据人核心竞争力(不限年龄!不限岗...
2024-08-24 09:30:36 1393
原创 Apache Paimon走在正确的道路上|一些使用体验和未来判断
Apache Paimon这个框架大家应该都不陌生了。在实际工作中大家应该多多少少都用到,这个文章是一个简单的使用体会。不涉及湖框架的拉踩,我们的着眼点是解决实际问题。我来结合自身体会跟大家说说Paimon这个框架和对未来的一些判断。大家可以参考,错了也不要怪我误导你????。首先湖框架在发展之初解决的几个问题:Schema Evolution、流读流写、批读批写、ACID等几个通用的能力。但是我们必须...
2024-08-20 09:31:00 2386
原创 Doris Compaction生产环境最佳实践这个问题该怎么回答?
这是我辅导的同学遇到的一个面试问题,关于Doris等OLAP的生产环境最佳实践在未来数据开发的面试占比逐渐变高。你可能有要意识的收集一下这方面的生产环境最佳实践。这个问题只要你用Doris,生产环境大概率会用到,面试官问你也理所应当。关于Doris Compaction 优化的原理可以参考:《Apache Doris Compaction优化百科全书》。理论是我们进行优化的基础,除了上面文章提到的...
2024-08-12 09:00:09 2319
转载 零售消费数据分析案例|七秒易购供应链管理全流程解析(附下载)
在当今商业世界,数字化转型已成为推动供应链创新和提高企业竞争力的关键力量。对于任何企业而言,供应链的效率和响应能力直接关系到成本控制、市场适应性以及客户满意度。供应链管理的痛点通常聚焦于库存精准控制、需求的准确预测以及物流的高效率。库存管理关键在于平衡存货水平,以减少过剩带来的成本和避免缺货影响销售;需求预测则是确保产品供应与消费者需求同步;物流效率关乎成本控制和配送速度,企业需在保证服务品质的同...
2024-08-06 09:00:45 1624
原创 Flink 1.20 版本发布,一些值得注意的特性!
8月2日,Flink1.20版本发布,一边听歌一边看我分析。(戳上面????听歌)本文基于官方网站的Release Note做一个简单的分析,看看哪些内容是更加值得我们关注的。在定位上,这个版本是一个2.0版本之前的过渡版本,也是1.x时代最后一个版本。这个版本中有很多细小的变动,和一些MVP版本的开发,那站在用户的角度,比较值得注意的几个特性有哪些:物化表1.20版本引入了一个 物化表(Materia...
2024-08-05 09:00:19 3690
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人