- 博客(2122)
- 资源 (1)
- 收藏
- 关注
转载 2025年Apache社区新晋顶级项目名单,你的技术栈该升级了。
Uniffle 通过将 Shuffle 服务从计算引擎中彻底解耦,构建一个独立、可扩展、可共享的远程 Shuffle Service,使得计算任务可以更加专注于计算本身,而 Shuffle 数据的存储、传输与容错交由专门的服务负责。Gravitino 的价值在于提供一个跨系统、跨引擎的统一元数据视图,将数据资产、权限、血缘、标签等能力集中管理。在现实生产环境中,Spark、Flink、Java、SQL 引擎往往同时存在,不同任务适合不同执行引擎,但开发者和平台往往被迫提前做出选择,且切换成本极高。
2026-01-05 09:01:54
5
转载 再这样下去,数据岗的好日子怕是要到头了。。。
只有充分了解大模型的技术原理、AI产品结构,才能了解背后的数据链。详细讲解案例的思路、应用场景,以及背后的技术原理、核心技术!朋友小林最近很焦虑,“现在好多企业都开始招AI方向的数据了,不懂大模型,找工作都越来越难了。确实,过去一年,除了字节、百度等互联网大厂,各中小型企业,也都在加紧布局AI。,都可以直接在自己的工作中使用,让自己的产品/项目有可借鉴的成功案例!本次课程,专门面向数据人群,解析当下最热门的AI产品应用的必备的。而那些懂AI的,正在构建自己的护城河,成为市场争抢的人才!
2026-01-04 09:03:14
8
原创 「2025年全年总结」大模型 x 大数据深度融合盘点,新时代来临!
同时,⼤数据方向的框架迎来大升级,Flink 2.1、Spark 4.0等框架强化AI原⽣⽀持,向量数据库成为⾮结构化数据处理的核⼼基础设施,这两个方向的深度融合推动AI技术进入全新发展阶段。这标志着大模型不再仅仅是问答工具,而是具备了自主执行多步骤、复杂研究任务的能力,成为真正的研究助手;:以Qwen3-Max和DeepSeek R1为代表,MoE架构在2025年被广泛采用,它仅激活模型的一小部分参数进行推理,从而使高性能AI的部署成本降低了高达95%,加速了技术的普及;
2025-12-24 19:50:03
782
原创 「2025年全年」Spark4.0时代,Spark全年更新核心特性总结和解析!
Spark在2025年经历了3.x到4.x系列的重要跨越,其中Spark4.0版本在今年的5月份发布,也标志着Spark进入了新的发展阶段,这些更新包括全新的ANSI SQL模式支持,多态UDTF,Real-Time Mode功能引进等功能性上的提升,也包含GPU加速和内存优化等技术带来的性能上的提升,以及Python API的全面改进等等,我们接下逐一解读这些变化。在这个基础上,Spark提供超过Flink的状态监控和查询能力:直接查询状态存储中的数据,监控状态的变化历史,以及诊断流处理中的问题。
2025-12-10 08:31:15
1106
原创 「2025年全年」Paimon全年更新核心特性总结和解析
第二个关于Shuffle优化,主要是缓解数据量较⼤时会导致启动缓慢和内存占⽤过⾼的问题,基于Bucket的Shuffle优化可以只加载和处理与其处理的Bucket相关的维度数据,从而减少了内存占⽤和数据加载时间,当然这个有一定前提要求维度表是固定Bucket(Fixed Bucket)表,并且Join的键包含所有Bucket键。除了上述的核心优化外,在写入性能上的优化还包含,支持带z-order排序的compaction等等,大家可以根据需要关注。OK,以上就是我们本次的总结了。
2025-11-28 17:43:20
559
转载 另辟蹊径的Text2SQL,不用大模型也能搞chatBI
诸如“上月销售额”、“销量最高的产品”、“北京地区的客户销售额”这类问题,其语义模式实际上是可抽象、可结构化的。它或许没有大模型那般“万能的想象力”,但在 BI 这个需要确定性、可靠性与成本控制的领域,这种专注于“解决特定问题”的另辟蹊径,无疑是一条值得重视的务实之路。它的强大建立在“词典”的完备性上,对于词典之外的“新词”和“新说法”,它是真的“无能为力”。:NLQ 首先将句子拆解为“去年”、“北京”、“发往”、“青岛”、“订单”等关键令牌,并过滤掉“的”等无实际查询意义的虚词。
2025-11-27 08:30:45
57
原创 「2025年全年」Flink2.x全年更新盘点和特性解析
这个能力不用过多介绍了。Flink 2.0版本正式引入了"解耦式状态管理"(Disaggregated State Management) 架构,从根本上改变了Flink处理和管理状态的方式,使其从传统的计算与存储紧密耦合的模式,演进为支持计算与存储分离的现代化架构。DeltaJoin的核心思想是,不再存储完整的输入数据流,而是通过结合外部索引(如kv存储或其他数据库)和变更日志(Changelog)处理来实现Join,把状态存储压力转移到外部系统,消除Flink状态瓶颈,降低了Flink作业的资源消耗。
2025-11-17 08:31:11
327
原创 10+中大厂大数据Offer,社招校招实习面试,我们来给10月份做个总结。
社招上的一些变化,就跟我们之前一直讲的,时代变化太快,从中小厂向上跳的同学们一定要注意自己简历中项目的深度和技术栈的广度和前沿性。同学们共拿到Offer14个,这些同学一半多是社招,大部分是中大公司的offer,top公司offer4个,当然薪水也非常高(这个时代变化很快,不能否认传统技能的重要性,但是面试说到底是考试的一种,需要横向PK,所以获胜的关键就在于用长处取胜。校招同学们请注意,实习要摆在第一位,然后配合技能上的深入。,受到大家强烈欢迎,我们还在持续新增新的面经进去,欢迎大家加入星球!
2025-11-06 16:13:52
323
原创 Paimon小文件问题深度解析与优化实践
因为每个Sink子任务都会有自己的WriteBuffer,并发度越高,总的WriteBuffer数量就越多,在Checkpoint触发时,可能会同时刷写更多的小文件。因此,Paimon Sink的并发度建议与表的Bucket数量保持一致,确保每个Sink子任务(Subtask)可以独立地处理一个Bucket的数据,避免数据在Sink节点之间进行重分布(Shuffle),从而提高写入效率。,可以把更多的数据在内存中进行累积和排序,从而在每次刷写时生成体积更大的L0文件,从源头上减少小文件的数量。
2025-11-03 08:30:43
1165
原创 Kafka再进化,4.1.0版本中的新特性!
Kafka4.1.0版本中,KIP-1071引入了一个全新的、专为Kafka Streams设计的再平衡协议,该协议基于KIP-848中全新的消费者组协议构建,从根本上解决传统再平衡过程中存在的"Stop-the-World"问题,提升流处理应用的伸缩性和可靠性。此外,4.1版本还深化了全新消费者组协议(KIP-848)的应用,增强事务处理的服务器端防御和错误处理的一致性,并在客户端API、监控和安全认证方面进行了多项实用改进。Kafka 4.1.0版本在功能层面引入了很多创新,其中最引人注目的包括。
2025-10-30 08:30:47
413
原创 「2025年全年」Doris2025全年核心特性总结
就在10月21日,Doris发布了4.0版本,本次发布围绕 "AI 驱动、搜索增强、离线提效" 三大核心方向,新增向量索引、AI 函数等关键特性,完善搜索功能矩阵,优化离线计算稳定性与资源利用率。新增 ICU/IK/Basic 三大分词器,中文日志分词准确率提升18%,电话号、UUID可自定义Edge-Ngram前缀索引,召回率 100%;纵观2025年,Doris从2.x版本后进行2次大版本的升级,分别在湖仓、AI领域持续发力,如果你想尝试湖仓一体、AI能力,那么版本升级势在必行。
2025-10-28 08:30:35
906
原创 【2025年下半】PaimonxDoris湖仓一体方案各大公司生产实践和优化总结
Paimon作为数据湖存储,核心优势体现在存储层:其开放格式(兼容 Spark、Flink、Trino等多引擎)、基于对象存储(S3、HDFS)的 PB 级弹性扩展能力,以及对事务、Schema 演进的原生支持,使其成为海量异构数据的"统一存储基座",兼顾低成本与兼容性。只需要在DWS层,创建一张主键聚合表。支持基于 Paimon 的物化视图,包括分区级别的增量物化视图构建,以及本文后续将要介绍的基于快照级别的增量构建,同时支持强一致的物化视图透明改写能力,将湖和仓的能力深度结合。
2025-10-20 08:40:23
1150
原创 我们用了2个月时间,整理了200+场次大厂面试专题!
内容本身基本涵盖了当前市面上各个叫得出名字来的公司,技术内容包含了:离线、实时计算、数据湖、OLAP等等,适用范围从初入行业1-3年的新人到工作10年+的行业大佬都可以。但是我们必须客观的讲,这些面经大多数问题都比较资深,不是所有问题都给出了答案,也需要读者自己做思考,然后借助搜索工具或者在知识星球讨论,这样的你才能完全掌握它。一些有共性的、高价值的内容我会整理成视频,然后发布在B站,你可以在闲暇时间多刷一刷,汲取一些灵感,这部分当成补充内容即可。比如很多同学的疑问是,某种做法适合我的业务场景吗?
2025-10-16 08:31:06
347
原创 生产环境建议使用吗?Doris3.1版本再进化,解读一下这些能力!
批量分片执行:针对湖表的数据分片较多,通过分批次生产数据分片信息,并且边生产边执行,能够有效缓解 FE 的内存开销,同时能够让分片信息的生产和执行并行执行,提升整体的执行效率。动态分区裁剪:能够在多表关联查询场景下,根据右表数据生成分区列谓词,并对左表数据进行运行时的分区剪枝,从而减少数据 IO,提升查询性能;看到网上还没有对新版本的解读,我们今天抛砖引玉,看一下3.1版本中的新的能力在生产环境的使用。这是一个非常巨大的进步,很多公司有非常多的场景从ES向Doris迁移,可以保证查询效率不降低。
2025-10-13 08:30:53
1042
原创 几个有用&有趣的AI开源GitHub项目
这个项目和我们文章开头推荐的waytoagi是同一类,包含大模型(LLM)、RAG(检索增强生成)和AI智能体(Agent)应用搭建等一系列教程,并且它提供了一个完整的PDF可以直接下载学习!这个项目是一个教程与实践案例的集合库,如果你有一定的基础可以直接拿过来学习,如果没有的话可以用上面的waytoagi来入门学习一下。我们今天分享的是几个跟AI相关的开源项目,随着大模型的持续火爆,AI领域相关知识已经成了开发领域最炙手可热的技能。我们回到今天的正文,下面几个有用/有趣的开源项目大家可以多多了解!
2025-10-10 08:30:27
458
原创 Paimon数据丢失的常见场景和注意事项(避坑版)
模式的设计初衷是只更新指定字段,而不是处理整行数据的删除:如果想感知数据删除,业务上需要指定删除标记字段,让下游能识别上游的删除信号。Flink写Paimon资源分配不足导致CPU 100%,CheckPoint超时失败,直接强制重启任务,导致最新一次CheckPoint之后的数据丢失。流读表一定加 'consumer-id',确保快照不被清理,且保留时间≥最大停机时间,建议24h起步。:Flink写Paimon只有在任务的Checkpoint成功后才会commmit,失败后强制重启,内存缓冲区直接丢弃。
2025-09-24 08:30:37
487
原创 大数据提高班|中大厂Offer复盘记录
我是一月初开始的面试,春节后就收到了offer,经过对比后,选了一家心仪的中厂,成功入职,正式开启了职业生涯的新阶段。一直在探索转行,我是工作两年后就有了转行的念头,但是由于个人的懒惰(公司是外企,过于安逸,我迟迟没有跳出舒适圈),以及培训班的选择失误(先后踩过三个很坑的培训,被割了韭菜,就不依次说了)导致迟迟没有转行成功。入行半年左右,就感受到了小公司的局限性,虽然当时面的是大数据,但是工作中基本没用到大数据相关的技术,由于又是小城市,工资低,需要出差,工作强度也不低,没法做到在职学习。
2025-09-17 08:31:16
719
原创 物化视图生产环境真的建议用吗?
物化视图的定义 SQL 可以包含单表查询,也可以包含多表查询。分区增量刷新:当物化视图基表的分区数据发生变化时,识别出对应变化的分区并刷新这些分区,从而实现分区增量刷新,而无需刷新整个物化视图。针对多种外部数据源,可以将这些数据源所使用的表进行物化视图构建,以此来节省从外部表导入数据到内部表的成本,并且加速查询过程。在数据分层场景中,可以使用物化视图的嵌套来构建 DWD 和 DWM 层,利用物化视图的调度刷新能力。这里面除了性能上的考量,更重要的是可维护性,物化视图的维护复杂,直接操作线上库表,风险极高。
2025-09-10 08:30:28
522
原创 Flink2.1 AI+LLM大模型调用初体验
适当的调优可能显著提升运行AI函数的吞吐量和稳定性。此外,Flink 2.1的ML框架已经原生支持「Embedding→向量存储→向量检索→LLM」的RAG链路,我们后面再单独分享。扩展ML_PREDICT表值函数,支持通过Flink SQL实时调用AI模型,为构建端到端实时AI工作流奠定基础。新增AI模型DDL,支持通过Flink SQL与Table API创建和修改AI模型,实现AI模型的灵活管理。根据官方的文档,Flink对大模型的调用支持异步访问,并且默认打开。首先,Flink允许我们使用。
2025-08-25 08:31:16
769
1
原创 12天16场大数据模拟面试和复盘,以下是总结。
很多的同学在最初版的简历中「定位」较低,我经常听到的话是:「我在这个项目中只参与了xx部分的开发,其他的内容我不了解」,「我只做了xx的开发,yy内容是其他人做的,用的平台的能力」。这里我要跟大家说的是,我们在总结过去的工作履历时,首先站的位置一定是一个总揽全局的视角,是站在一个更高维度的层面去看待项目本身,不能站在一个基层的开发的角度去审视当前的项目。简历中的基本错误要坚决避免,因为有相当一部分的面试官看的非常仔细,会针对你的简历逐行阅读和提问,一个结构优雅,排版细致的简历给人的第一印象是非常好的。
2025-08-18 08:30:40
796
原创 【2025年上半】Doris在各大公司生产实践方案和优化总结
这里我们必须要提一个能力,Doris在2.1版本中引入了 Job Scheduler 功能,实现了自主任务调度能力,调度的精准度可达到秒级,这个能力大家可以谨慎评估接入使用,更推荐的是结合第三方的调度框架使用。实践证明,以Doris引擎为驱动的准实时数仓模式,有效解决了数据生产和查询的难题,同时满足业务对数据时效性和灵活性的需求。在该架构中,利用Doris的实时写入能力(如KafkaToDoris实现秒级延迟写入),配合可靠的 5、10、15、30分钟的调度保障能力,实现了业务数据的微批处理。
2025-08-05 08:30:19
1126
原创 早7晚11,大厂节奏崩不住了!附生存落地指南。
这是很多新人小伙伴,无论是应届生初入职场,或者从一家小而美的公司进入中大公司,尤其是几家工作节奏非常快的公司,遇到的第一个问题,环境改变很难适应。新人进入新的环境后,你需要做的是快速熟悉各种工具,包括线上沟通,打卡,公司IT服务等;并且十分建议大家主动找到你的上级沟通,这个沟通一般是在入职1周左右发起,把当前遇到的问题,未来工作计划聊清楚。迅速熟悉团队的文档,了解团队大概架构,核心的项目进展,不用追求细节,只求建立基本的认识。经过这四个阶段,恭喜你,你就可以完成在新的环境落地,生存下来了!
2025-08-01 17:01:32
527
原创 又被拷打了!我的锅。
我们非常理解大家在这个过程中的煎熬,你要做的是抛出问题,然后会得到正确的答案,这个过程没有人是一帆风顺的。并且作为求职者,在当前的大环境下,要主动去了解目标岗位的要求,个人需要重点准备的内容,如果大家不确定,这个过程我们会帮大家做好判断。此外,一些中大公司的面试要特别注意,这些中大厂的面试时有冷冻期的,一般是6个月甚至更长,而且面试过程会记录到系统中,所以要谨慎对待。每一次面试都是一次对自身掌握知识的查漏补缺,对于缺乏判断力的部分同学来说,可以拿着录音或者面试笔记,我们会协助进行复盘。
2025-07-29 11:58:29
4479
原创 菠菜公司开了60K,坐牢还是坐班?
如果你对这类岗位感兴趣,可以多多搜集相关资料,例如upwork、AbetterWeb3等等网站,此外需要自己学习相关领域的专业知识。随着web3,区块链等的兴起,加上过去几年类似zoom、teams这样的线上办公平台的兴趣,很多公司都有了remote岗位。例如根据笔者的了解,web3的岗位有钱包相关、智能合约、数据开发等各种岗位,他们的共同点是薪水非常高,全球灵活办公等。最后,带个免责声明,本文纯属分享他人经历,不做职业建议,不推荐风险业务关联公司,其中风险请读者自行甄别。大家好,今天分享的内容有点劲爆。
2025-07-25 08:31:28
276
原创 AI融合存算分离|Flink2025年核心更新汇总
这个能力主要是为了应对TB级别的状态存储与高吞吐、低延迟的访问要求,Flink2.0正式推出解耦式状态管理架构,通过异步执行框架ForSt和分层存储系统实现状态与计算分离,利用廉价的对象存储来共享数据,从而实现更灵活的资源调度、更高的可扩展性和更轻量稳定的容错能力。Flink社区的这种前瞻性考量也是非常值得称道,如果类似Flink、Spark这样的框架支持通过SQL和大模型进行交互,通过内置函数调用大模型服务,进而实现基于Flink/Spark SQL完成数据清洗、分析处理到AI推理的全链路实时计算。
2025-07-23 08:30:26
1078
原创 面试复盘,数据湖部分面试官关注什么?
其次在引擎侧,很多公司和云平台上的产品会针对性的做一些优化,例如:产生回撤信息最根本的一个原因是不断地向下游多次发送更新结果,所以为了减少更新的频率并降低并发,可以把更新结果累计一部分之后再发送出去;最后,给自己打个广告。我们拿Paimon举例,这个组件有自己的特性,例如支持流批读写,分钟级的数据新鲜度,主键和非主键表,此外Paimon还有维度表能力,列更细能力等。因此在大多数的场景中,我们都强烈建议在ODS做好数据的乱序处理,尤其是下游是主键表的情况,如果不做这种处理很容易导致最终的结果是错误的。
2025-07-21 18:02:33
540
原创 3年前的Flink任务优化,2025年还有效吗?
其他的优化例如,双流关联的主键优化,调整多流join顺序缓解state放大,dag子图复用等等大家可以酌情使用,对线上任务影响程度不是十分明显。此外最大的问题是,Mini-batch的开和关会带来Flink任务的DAG发生改变,导致状态不兼容,需要特别注意⚠️!经过优化器识别后,Flink可以只使用一个共享状态实例,而不是三个状态实例,可减少状态的大小和对状态的访问。三年后的今天,我们站在生产实践的角度,总结一下哪些优化手段是比较推荐的,按照星级给出建议指数,供大家参考。
2025-07-16 08:30:38
922
原创 全中国Java生态都应该感谢阿里开源
在引入Dubbo的过程中,很多公司在落地过程中踩了相当多的坑,在那个技术文档并不完善的年代,所有问题都要自己动手处理,甚至最基本的日志分析都要熟练使用linux命令,各种复杂的日志分析命令是找到问题最关键的一步。这个转变持续了很多年,微服务最开始是在2000年初从国外引入国内的,但是在国内一直没有大范围的推广,直到一个框架的出现:Apache Dubbo。时至今日大家手头的技术栈中,越来越多的来自阿里云的贡献,原来的云栖社区现在阿里云开发者社区,也是大家获取大数据领域最新动态的最重要的来源没有之一。
2025-07-09 08:30:27
835
原创 大数据业内最前沿的一些动态解读分享|FFA2025新加坡站
Flink 2.0 创新性地中提出了一种全新的"解耦式状态管理架构(Disaggregated State Management)",将状态存储与计算任务分离,利用廉价的对象存储来共享数据,从而实现更灵活的资源调度、更高的可扩展性和更轻量稳定的容错能力。Flink社区的这种前瞻性考量也是非常值得称道,如果类似Flink、Spark这样的框架支持通过SQL和大模型进行交互,通过内置函数调用大模型服务,进而实现基于Flink/Spark SQL完成数据清洗、分析处理到AI推理的全链路实时计算。
2025-07-08 10:55:17
463
原创 Apache Spark目前发展到了什么程度?
作为协议层的核心改进,Spark Connect 实现了客户端与驱动程序的解耦,支持 Go、Python 等语言的轻量化客户端开发,用户可通过文本编辑器直接调试远程集群,极大降低了开发门槛;社区也在积极的拥抱新时代数据领域的挑战,你看到的无论是向量化执行、AI融合,还是生态层面的云原生支持、跨框架协作,都体现了社区对未来趋势的前瞻性布局。,没想到引起很多读者的共鸣,数据时代框架的发展之快远超过你我的预期,各位都是这个过程的亲历者。2025年5月23日,Spark4.0版本发布,但是网络上没有太大的反响。
2025-07-04 08:30:31
1176
转载 最近,大数据的招聘市场已经疯掉了…
是指运行一段具有特定功能的代码块的行为,以增强其处理能力,实现更复杂的任务,使大模型能够集成外部工具和资源,提升交互性和实用性。AI大模型技术实战—— Transformer 架构的 核心原理、应用 Fine-tuning 技术,精准微调AI大模型,随着DeepSeek爆火,超200+企业纷纷接入AI应用,腾讯、百度、阿里等一线大厂更是加速AI市场渗透,老师们将大模型技术原理讲透的同时,还将丰富的商业化AI应用项目无偿分享,帮大家快速打通。,还能将分析结果封装成AI工具,或直接参与开发数据驱动的AI产品,
2025-07-03 10:01:46
782
原创 Apache Hive 还有未来吗?
这几年随着数据方向新的框架层出不穷,计算上有了Spark、Presto等更快的引擎,存储上有了Hudi、Paimon的出现,Hive原本在设计和使用上的一些弊病也不断被挑战,各种各样的后来者在解决原来Hive解决不了的问题,无论是在性能还是核心特性上。Hive应该是大多数人数据人接触的第一个框架,时至今日仍然在大家的工作中扮演着重要的角色,各大公司的核心数据底座中Hive仍然是重要的一环。在官方的Wiki中,Hive4.0版本的新的feature高达几十个。Hive社区也许也站在了历史上的某一个时间节点。
2025-07-01 08:30:16
513
原创 Paimon在各大公司生产实践和优化总结
因为Spark和Paimon集成度很高,通过Spark或Flink进行一些ETL操作,将数据写入Paimon中,基于Paimon进行z-order排序、聚簇,甚至构建文件级索引,然后通过Doris或StarRocks进行OLAP查询,这样就可以达到全链路OLAP的效果。此外,Paimon社区也提供了一套工具,可以帮助大家进行schema evolution,将MySQL甚至Kafka的数据同步到Paimon中,上游增加列,Paimon表也会跟着增加列。成本较高,Flink周边技术栈众多,管理和运维成本高;
2025-06-24 08:40:46
935
原创 2025年上半年总结,大数据方向求职及行业现状
不可否认,传统的离线类内容仍然占据工作内容的主流,但这就是面试和实际生产环境的割裂,因为面试是「选拔考试」,需要通过更加有难度的面试内容找到所需要的人,但更有另外一方面的原因,即是很多公司没有历史包袱,所以期望在建设初期摒弃掉传统的技术方案,采用更前沿和成本更低的方案。这部分内容不能说没有但是实实在在的变少,这部分内容在3-5年前占据了面试内容中的50%以上,原因是行业整体水平不高,并且新人多,行业需求旺盛,所以你只需要了解基本的框架原理,会基本的问题定位和解决(例如数据倾斜等),那么面试确实问题不大。
2025-06-20 08:40:21
2061
原创 除了调参/AQE/数据倾斜等,Spark还有什么方式能显著提升性能?
Gluten实现向量化计算的主要变更如下所示,在QueryExecution执行前优化过程中,通过注入规则对物理计划进行扩展处理,转为Gluten物理计划,使用向量化执行模式替换已有的JVM + CodeGen的执行模式。从Spark3.0开始,社区支持自适应查询执行(Adaptive Query Execution,AQE) ,在DAG Stage执行过程中,基于上一个Stage的真实执行统计信息,重新生成更优的执行计划,动态优化下一个Stage的执行逻辑。
2025-06-16 20:32:14
671
转载 数字化转型模板!企业级BI平台白皮书免费下载!
白皮书从规模型企业数字化转型特有的挑战入手,针对企业丰富的数字化触点、规模化能力建设、智能决策、组织升级需求进行分析,梳理了规模化企业对于“企业级BI”能力的要求,建设性地提出了企业级BI“五力模型”,为规模型企业提供新的BI建设思路与可落地的BI选择方法论。在内的各行业规模型企业的实践分析,分享企业级BI能力体系的构建成果,并前瞻性的展望了未来将驰骋市场的“四化”企业特征,为企业数字化运营及业务发展提供策略支持。本文内容来自《企业级BI平台白皮书》,扫二维码可下载完整白皮书。
2025-06-16 08:30:37
168
原创 Apache Fluss到底要解决什么问题?
此外,因为Fluss同时具备湖和流两层数据,数据周期较长且性能极佳,Fluss把原本基于State的Flink Join变成利用Fluss的CDC流读+索引点查,极大的减少了Flink多流Join的状态和性能以及资源消耗问题。而流存储作为湖存储的实时数据层,负责存储短周期、毫秒级延迟的数据,这两者的数据可以互相共享。保证性能不劣化的前提,极大的扩展原来Kafka所处生态位的能力,从单纯的数据存储扩展为「面向分析的存储」;且Kafka的网络成本极高,在很多公司,Kafka这样的组件收费甚至是按照qps来的。
2025-06-13 15:23:59
1292
原创 Paimon生产环境问题小总结
此外,在很多云平台产品上都提供了Bucket Shuffle功能,原理是在开启Bucket Shuffle后,会根据Join Key进行Hash分组处理,每个分组中只要缓存对应Bucket 数据,可以极大减少内存用量,减少了缓存淘汰的概率,就可以支持更大规模的维表。我们以Flink写Paimon举例,在小文件场景中,产生小文件主要有两方面导致,一是进行Checkpoint的时候会强制把当前的WriteBuffer的数据刷到磁盘上,二是WriteBuffer本身满了也会刷到磁盘上。
2025-06-11 08:30:58
1046
原创 增量计算+实时湖仓是怎么回事?
关于湖框架的技术选型,这里小红书选择了Iceberg作为基座,Paimon作为维度表,当然因为不同公司的技术栈不同,用户可以灵活选择自己公司当前在用的框架。其次,利用StarRocks作为查询引擎,直接查询结果数据进行聚合,这也是我们在数据开发上经常用到的使用StarPocks、Doris等直接读取离线数据进行加速查询的场景。在模型设计层面,设计了<分钟,user_id> 粒度的数据,把明细日志转化成了5分钟+用户粒度的DWS层数据,同时在分钟级调度任务中关联用户维表,整体数据规模大幅度缩小。
2025-06-10 08:30:14
779
转载 为什么Data Warebase是AI时代首选Data API?
作者 | 王绍翾 @ProtonBase本文内容整理自 ProtonBase CEO 王绍翾在 AICon 的主题演讲《Data Warebase: Instant Ingest-Transform-Explore-Retrieve for AI Applications》。作者的职业经历贯穿了 AI 1.0、2.0 和 3.0 的时代,从搜索推荐,到视觉 / 语音 / NLP 智能,再到当前正全力投入的大模型 AI 浪潮,本文将结合其多年来对数据基础设施的实践与反思,深入探讨生成式 AI 时代对数据系统提
2025-06-09 08:31:12
185
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅