自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

微信搜:import_bigdata,大数据领域硬核原创作者

GitHub搜:https://github.com/wangzhiwubigdata/God-Of-BigData

  • 博客(2147)
  • 资源 (1)
  • 收藏
  • 关注

原创 Paimon生产环境高级问题小总结-续

这个问题出现在Dedicated Compaction任务中,通常是因为Paimon compact source的OperatorCoordinator向subtask发送split分配事件时,TaskManager在180s内没有响应(Akka Ask Timeout),导致事件丢失,触发failover。定位这个问题直接看日志和监控,通常的表现是GC频繁,compact source的并行度太高,此外需要增大akka的超时时间。降低 compact 提交频率,分离写入与 compact 任务。

2026-05-26 08:30:00 536

转载 全体数据人做好随时涨薪的准备吧!

只有充分了解大模型的技术原理、AI产品结构,才能了解背后的数据链。详细讲解案例的思路、应用场景,以及背后的技术原理、核心技术!朋友小林最近很焦虑,“现在好多企业都开始招AI方向的数据了,不懂大模型,找工作都越来越难了。确实,过去一年,除了字节、百度等互联网大厂,各中小型企业,也都在加紧布局AI。,都可以直接在自己的工作中使用,让自己的产品/项目有可借鉴的成功案例!本次课程,专门面向数据人群,解析当下最热门的AI产品应用的必备的。而那些懂AI的,正在构建自己的护城河,成为市场争抢的人才!

2026-05-21 08:30:00 44

原创 Apache Doris多模态能力深度解析:从技术架构到大厂落地实践

构建阶段:文档切片后,用 AI Function 进行实体抽取,实体间关系构成图的边(带权重),实体描述经向量化后存储构建索引。AI时代的 RAG、Agent、AI问数等新范式,对数据库提出了"一份数据,多种检索"的刚性需求-既要全文检索,又要语义向量搜索,还要传统SQL聚合分析。企业数据中,非结构化数据(文本、图像、音视频)的占比已超过 80%。

2026-05-20 08:30:00 593

转载 智能问数(Text2SQL)工业级落地,纯AI黑盒方案都没戏

当结果可疑时,面对技术人员,还可以把 SQL 抛出来确认(虽然也很费劲),但 Text2SQL 的用户往往是看不懂 SQL 的业务人员,给了 SQL 也是白搭。类似的还有跨行组(环比、同比、累计、占比、排名等)这类复杂运算,可能涉及不同层次范围,生成 SQL 时还会用到繁琐且兼容性不好的窗口函数,直接在 NLQ 里处理,不仅用户描述不便,生成的难度也很高。,它可能与中间层实际逻辑不一致,用户确认了也只是确认了 AI 的描述,而不是确认了将要执行的逻辑,幻觉只是换了个位置,并没有被消除。

2026-05-19 08:30:00 44

原创 全网首发|AI x Data x Agent 面试专题总结系列【5.2万字,11个模块】

本文整理了自2025年下半年以来,大数据提高班、知识星球、其他微信同学们面试过程中遇到的AI x Data x Agent等方向的AI相关面试题,涵盖RAG、Agent、向量数据库、框架、Skills、协议、生产工程、大模型微调、Promt Engineering、Data × AI融合等模块,共计100+道核心面试题。在AI Agent体系中的定位:向量数据库通常承载Agent的长期记忆(历史对话/经验)和知识库(RAG检索源),是Agent从"无状态对话"升级为"有记忆系统"的关键基础设施。

2026-05-09 08:30:42 664

转载 明显感觉数据岗的面试已经完全变了!

只有充分了解大模型的技术原理、AI产品结构,才能了解背后的数据链。懂数据、了解AI业务,才能通过数据不断推动公司AI业务的优化与迭代!详细讲解案例的思路、应用场景,以及背后的技术原理、核心技术!还能结合业务场景,将需求转化为可落地的AI数据工程方案,从数据角度优化AI产品、推动项目。,都可以直接在自己的工作中使用,让自己的产品/项目有可借鉴的成功案例!能直接对话大佬和专业助教,不懂就问,超详细的案例,小白也能轻松get!本次课程,专门面向数据人群,解析当下最热门的AI产品应用的必备的。

2026-05-08 08:30:31 43

原创 写在Apache Paimon1.4版本发布后|详解多模态数据湖的核心原理和设计

这6种能力是一个自上而下依赖关系的技术栈,总结一下就是:Row Tracking是最底层的基座,Data Evolution是上层所有演化的"控制面",Blob/Vector/Variant是数据面的三种模态载体,索引与PyPaimon则分别覆盖检索侧和消费侧。这个能力让埋点/事件日志这类"Schema不稳定"的json数据被拆成"Parquet列",查询的时候只查需要的列,不需要做json解析。Paimon多模态数据湖的能力并不是一个单点功能,上面的图是一个基本的依赖关系。

2026-04-28 08:31:12 641

原创 Flink Agents一些前瞻学习解读

目前Flink Agents的Demo(如Flink作业智能运维)虽然概念上与Skills类似(利用LLM生成问题描述,检索SOP执行),但实现相对耦合。它接收事件,根据AgentPlan中的actions_by_event映射找到对应的Action,并创建具体的ActionTask来执行,负责协调调度。我们在很早的时候关注过Flink Agents这个项目,到2026年的今天,Flink Agents已经来到了0.3版本的前瞻。我们今天分享的是,截至目前Flink Agents的核心功能和未来计划。

2026-04-24 08:30:47 604

转载 数据的行情跌到谷底了。。

只有充分了解大模型的技术原理、AI产品结构,才能了解背后的数据链。详细讲解案例的思路、应用场景,以及背后的技术原理、核心技术!朋友陈硕入行5年,公司正好空出一个数据经理岗位,本想凭借之前积累的经验争取一下吧,结果却被新人“半路截胡”了!核心业务转AI方向,不了解大模型原理、应用技术、场景,毫无竞争能力……,都可以直接在自己的工作中使用,让自己的产品/项目有可借鉴的成功案例。本次课程,专门面向数据人群,解析当下最热门的AI产品应用的必备的!从薪资上看,同样的数据岗,AI方向薪资更高!

2026-04-23 08:31:27 52

原创 Data Agent全景扫描:从NL2SQL到自主数据智能体,这条路走到哪了?

Data Agent 的终极形态不是更好的 BI 工具,而是企业的"数据大脑"。火山引擎率先推出的 Data Agent 评测体系,代表了行业从"技术指标"向"业务价值"评测转型的方向。核心评测维度将从"SQL 准确率"扩展到"分析意图完成率"、"事实一致性"、"响应效率"等多维度。腾讯 2026 年犀牛鸟精英人才计划中,专门设置了"Data Agent 前沿技术研究"课题,核心方向就是 Multi-Agent 协作框架-模拟人类分析师团队完成任务规划、数据归因、洞察报告等全链路闭环。

2026-04-17 08:31:21 546

原创 Agent + MCP + Skill:构建数仓全链路口径查询

2025年下半年开始,Agent + MCP(Model Context Protocol)+ Skill 的组合逐渐成熟,让我们看到了一种全新的可能:把数仓的口径查询能力,从"人工服务"变成"Agent 自助服务"。它不是一个简单的"查字典"操作,而是一个涉及多数据源、多系统、多步推理的链路。回到开头,Agent + MCP + Skill 这套方案的核心价值,是把数仓团队多年积累的口径知识,散落在代码、文档、人脑中的隐性知识封装成一套可被Agent调用的标准化服务。这是 RAG 在数仓场景的典型应用。

2026-04-09 08:30:21 681

原创 Daft + Ray + Lance:构建下一代多模态数据流水线实践

在 Daft + Ray + Lance 这套栈中,Ray 的角色是分布式调度后端——它不直接处理数据逻辑,而是负责把 Daft 的 Worker 调度到集群的多台机器上。需要指出的是,这个 Benchmark 来自 Daft 官方,Anyscale(Ray 的商业化公司)也做过自己的对比测试,在某些场景下 Ray Data 会优于 Daft,尤其是在大规格实例(更多 CPU/GPU)上。做数据的朋友,最近两年应该都有一个共同的感受-你的数据 Pipeline 里,"正经"的结构化数据占比越来越少了。

2026-04-03 08:31:19 732

转载 引入Copilot,AI时代的报表开发新范式

不过,这也有个坏处,就是要求输入的语句有一定规范性,不能过于随意,其实这对于程序员来讲并不是多大的负担,程序员本来就习惯了更为严格的程序代码,这个 Copilot 要求规范复杂度远远低于程序语言(以及报表原来那些公式),甚至低于 Excel 水平,程序员掌握起来并没有难度,而且,Copilot 还配有贴心的帮助功能,全程辅助用户精准输入指令。Copilot 的每一步输出都是确定的,它根据规则生成的执行命令是清晰的,如果遇到听不懂的指令,它会提示“无法识别”,而不会像 LLM 编造一个似是而非的结果;

2026-03-17 08:31:01 96

原创 2026年的Redis-AI能力史诗级增强!

语义缓存的做法是:把用户的 query 转成向量,在缓存中找语义最接近的历史 query,如果相似度超过阈值,直接返回缓存的 LLM 响应。不是和 Milvus、Pinecone 争"最强向量数据库"的位置,而是打"一站式"的牌—你的缓存、向量、会话、特征,都可以放在同一个 Redis 里管理,减少架构复杂度。Redis 在其中承担的是向量存储和检索层的角色。这个模块的设计理念是"数据在哪里,计算就在哪里"——既然特征数据已经在 Redis 里了,不如直接在 Redis 内部完成推理,省去数据搬运的开销。

2026-03-16 08:30:49 514

原创 一个极简的AI Agentic Engineering技术栈学习路线

Anthropic的开发者们定义了这样一套和大模型交互的标准,但是这套标准争议很大,我个人的看法是:无论MCP还是Skill,大概率都是AI发展中的中间产物。这部分在使用Trae这样的工具的时候,不同的工具提供了不同的开发方式,例如Trae的SOLO Code、SOLO Build模式等,他们分别适用不同的场景,这个需要自己多多体验。但是客观的说,Sping AI更适合后端的微服务架构,更适合做大规模的生产服务,所以如果你有Java基础,可以直接从Spring AI开始学习。另外尽量节省token消耗。

2026-03-13 08:04:20 345

原创 Arthas Agent诊断利器来袭,从命令行到自然语言的跨越。

这款由阿里巴巴开源的Java诊断神器,在GitHub上斩获了37,000+Star,是无数Java程序员的线上排障必备工具。Arthas Agent将AI的自然语言理解能力与Arthas强大的诊断能力相结合,让Java应用诊断变得前所未有的简单。Agent 自动执行 thread -n 3,获取 CPU Top 3 线程,分析堆栈,给出诊断结论。截至2025年底,Arthas已迭代至4.x版本,最新版本带来了多项重磅更新:。理解自然语言:将你的诊断需求翻译成安全、精确的 Arthas 命令。

2026-03-12 08:31:22 439

原创 AI大模型相关数据类岗位技术面试重点。

这些部门和公司因为没有「技术债」,没有历史包袱,所以更加期望直接使用业内最前沿的技术方案,例如相当多的部门数据直接入湖,所以类似Hudi/Paimon类的框架掌握是基本要求。因为大模型所需要的数据多样,非标准数据占比高,多模态数据多,各种图片/视频/音频等所以需要用到大量的对象存储,例如云厂商OSS/COS等,开源的Minio/Ceph等。从技术上来讲,用到的技术栈和数仓方向没有显著的差异,但是需要一些大模型的基本知识,并且针对性的学习一些技术栈。主要是用来做数据的embedding,用来检索,召回;

2026-03-09 08:31:18 345

原创 大数据核心框架更新周报|ClickHouse多版本齐发、Fluss0.9发布、Delta Lake引入Catalog管理表

表级查询超时是一个实用的运维能力补充,对于存在个别慢查询表的集群有直接价值。:一周发布 5 个版本,看起来密集,但实际上是 ClickHouse 多分支并行维护策略的常规节奏,主要内容是各分支的安全补丁和 Bug 修复。Delta Lake 4.1.0 的 Catalog 管理表和 ClickHouse 26.2 的 BigLake 集成反映了同一个方向:Catalog 的角色正在从被动的"表在哪里"索引,转变为主动的表生命周期管理服务——负责提交协调、扫描规划、权限控制和跨表事务。

2026-03-06 09:01:28 568

转载 所有大数据人,今年的新方向,彻底赢麻了!!

讲解复杂技术的同时,还拥有非常丰厚的产品商业化经验,了解诸多行业内幕!只有充分了解大模型的技术原理、AI产品结构,才能了解背后的数据链。详细讲解案例的思路、应用场景,以及背后的技术原理、核心技术!既懂数据、又了解AI业务的数据人,势必是未来更抢手个和更具竞争力的AI数据人才!25年AI产品全面爆发!,能直接对话大佬和专业助教,不懂就问,超详细的案例,小白也能轻松get!,都可以直接在自己的工作中使用,让自己的产品/项目有可借鉴的成功案例!本次课程,专门面向数据人群,解析当下最热门的AI产品应用的必备的。

2026-03-05 09:04:39 79

转载 【AI驱动的学习策略】AI时代的学习思路和方式已经发生了根本性的改变。

这个过程就变成了,基于AI agent/SKILL构建/开发项目,把问题/解决方案/版本更新总结下来,这些总结反馈给新的AI agent/SKILL,让他的能力更上一层楼。现在有了AI的加成,你可以创建专属的SKILL,帮你把工作中遇到的问题,框架更新的内容整理成标准文档,这个文档可以投喂给你的另外的SKILL,让他的能力变得越来越强。很多同学包括我在内在接触/学习新的技能/框架的同时,会天然抗拒,因为接触到不懂的内容,而我的兴趣又不高,甚至是被动学习,从不懂到懂的过程是很痛苦的。

2026-03-04 09:01:27 99

原创 GPT用10分钟重构了我的小项目|海啸已经在地平线,新时代数据工程师的生存法则

Dario做了明确的判断:"写代码"这个动作会最先被AI替代,更广泛的软件工程(系统设计、需求理解、AI 团队管理)需要更长时间,但端到端的自动化,但是"也终将发生"。不过他引用了比较优势的概念-即使你只做5%的任务,AI做另外95%,你的产出效率变成了原来的20倍,那5%被极度放大了。截至2026年,有了GPT、Claude这样的大模型支持,传统的很多岗位都会消失,很多历史「定律」也会失效,学习方式也会有巨大的改变。没被加速的环节反而成了瓶颈,成了最值钱的东西。,这才是从业者在海啸到来前应该做的准备。

2026-03-02 09:02:57 373

原创 Anthropics官方对Claude Skills做了一次重大更新。

新增了agents/grader.md(评分员)、agents/comparator.md(对比员)和agents/analyzer.md(分析员),把Skill的创建从「概念说明」转为「流程化执行」。:包含了一些核心的高级能力,例如 docx(Word 处理)、pdf(PDF 读取)、pptx(PPT 生成)等,这些是Claude Code强大功能的底层实现。4. 推动规模化落地:标准化 + 可复用的规则,让 Skills 从「示例演示」走向企业级场景落地,为后续技能市场、智能触发等生态升级奠定基础。

2026-02-26 09:01:58 643

转载 很严重了,大家别轻易离职。。

只有充分了解大模型的技术原理、AI产品结构,才能了解背后的数据链。懂数据、了解AI业务,才能通过数据不断推动公司AI业务的优化与迭代!但冷静一想,如今行业下行,今年失业、转岗的数据人大有人在,原地降薪的比比皆是;本次课程,全程直播讲解,能直接对话大佬和专业助教,不懂就问,超详细的案例,小白也能轻松get。2天时间,从大模型原理出发,到真实的商业案例,全链路讲解产品完成所经历的各个环节,!,解析当下最热门的AI产品应用的必备的「大模型」、「多模态」的实际应用和算法原理。趁早规划,才能抢占先机。

2026-02-02 09:01:20 93

原创 2026年数据方向求职市场供需分析和未来建议【春节特别篇】

站在2026年的时间节点,我们站在市场供需的角度,客观看待在AI浪潮冲击下,作为个体如何做到利益最大化,避免成为AI浪潮下的牺牲品。全文内容结合了过去3年1400+同学的面试和Offer情况,对不同岗位当前的现状和未来发展给一个客观的评价。方便大家根据个人情况谨慎选择,AI时代变化太快,大家紧紧跟住市场最新变化,不要被甩下车。今天给大家分享的是,2026年数据方向岗位市场供需分析和求职建议以及应对策略。内容包括三部分:岗位分类,当前市场供需,未来建议。大家好,我们又见面了。

2026-01-20 20:37:33 466

原创 <span class=“js_title_inner“>2026年数据方向求职市场供需分析和未来建议【春节特别篇】</span>

站在2026年的时间节点,我们站在市场供需的角度,客观看待在AI浪潮冲击下,作为个体如何做到利益最大化,避免成为AI浪潮下的牺牲品。全文内容结合了过去3年1400+同学的面试和Offer情况,对不同岗位当前的现状和未来发展给一个客观的评价。方便大家根据个人情况谨慎选择,AI时代变化太快,大家紧紧跟住市场最新变化,不要被甩下车。今天给大家分享的是,2026年数据方向岗位市场供需分析和求职建议以及应对策略。内容包括三部分:岗位分类,当前市场供需,未来建议。大家好,我们又见面了。

2026-01-20 20:37:33 266

原创 为什么向量数据库 Milvus 很重要?

在技术实现上,Milvus 构建在 Faiss、HNSW、DiskANN、SCANN 等流行的向量搜索库之上,支持数据分片、流式数据摄取、动态 Schema、结合向量和标量数据的搜索、多向量和混合搜索、稀疏向量等高级功能。产品定位的差异还体现在应用场景的适配性上。目前Milvus最新版本为2.6,Milvus 2.6重点关注核心架构改进,包括更简单的部署、更少的依赖性、更快的数据摄取管道、更低的存储成本、更好地处理大规模数据操作、更高效的标量和全文搜索,以及支持最新的 Embeddings 模型。

2026-01-09 08:30:32 846

转载 2025年Apache社区新晋顶级项目名单,你的技术栈该升级了。

Uniffle 通过将 Shuffle 服务从计算引擎中彻底解耦,构建一个独立、可扩展、可共享的远程 Shuffle Service,使得计算任务可以更加专注于计算本身,而 Shuffle 数据的存储、传输与容错交由专门的服务负责。Gravitino 的价值在于提供一个跨系统、跨引擎的统一元数据视图,将数据资产、权限、血缘、标签等能力集中管理。在现实生产环境中,Spark、Flink、Java、SQL 引擎往往同时存在,不同任务适合不同执行引擎,但开发者和平台往往被迫提前做出选择,且切换成本极高。

2026-01-05 09:01:54 166

转载 再这样下去,数据岗的好日子怕是要到头了。。。

只有充分了解大模型的技术原理、AI产品结构,才能了解背后的数据链。详细讲解案例的思路、应用场景,以及背后的技术原理、核心技术!朋友小林最近很焦虑,“现在好多企业都开始招AI方向的数据了,不懂大模型,找工作都越来越难了。确实,过去一年,除了字节、百度等互联网大厂,各中小型企业,也都在加紧布局AI。,都可以直接在自己的工作中使用,让自己的产品/项目有可借鉴的成功案例!本次课程,专门面向数据人群,解析当下最热门的AI产品应用的必备的。而那些懂AI的,正在构建自己的护城河,成为市场争抢的人才!

2026-01-04 09:03:14 88

原创 「2025年全年总结」大模型 x 大数据深度融合盘点,新时代来临!

同时,⼤数据方向的框架迎来大升级,Flink 2.1、Spark 4.0等框架强化AI原⽣⽀持,向量数据库成为⾮结构化数据处理的核⼼基础设施,这两个方向的深度融合推动AI技术进入全新发展阶段。这标志着大模型不再仅仅是问答工具,而是具备了自主执行多步骤、复杂研究任务的能力,成为真正的研究助手;:以Qwen3-Max和DeepSeek R1为代表,MoE架构在2025年被广泛采用,它仅激活模型的一小部分参数进行推理,从而使高性能AI的部署成本降低了高达95%,加速了技术的普及;

2025-12-24 19:50:03 1099

原创 「2025年全年」Spark4.0时代,Spark全年更新核心特性总结和解析!

Spark在2025年经历了3.x到4.x系列的重要跨越,其中Spark4.0版本在今年的5月份发布,也标志着Spark进入了新的发展阶段,这些更新包括全新的ANSI SQL模式支持,多态UDTF,Real-Time Mode功能引进等功能性上的提升,也包含GPU加速和内存优化等技术带来的性能上的提升,以及Python API的全面改进等等,我们接下逐一解读这些变化。在这个基础上,Spark提供超过Flink的状态监控和查询能力:直接查询状态存储中的数据,监控状态的变化历史,以及诊断流处理中的问题。

2025-12-10 08:31:15 1611 1

原创 「2025年全年」Paimon全年更新核心特性总结和解析

第二个关于Shuffle优化,主要是缓解数据量较⼤时会导致启动缓慢和内存占⽤过⾼的问题,基于Bucket的Shuffle优化可以只加载和处理与其处理的Bucket相关的维度数据,从而减少了内存占⽤和数据加载时间,当然这个有一定前提要求维度表是固定Bucket(Fixed Bucket)表,并且Join的键包含所有Bucket键。除了上述的核心优化外,在写入性能上的优化还包含,支持带z-order排序的compaction等等,大家可以根据需要关注。OK,以上就是我们本次的总结了。

2025-11-28 17:43:20 812

转载 另辟蹊径的Text2SQL,不用大模型也能搞chatBI

诸如“上月销售额”、“销量最高的产品”、“北京地区的客户销售额”这类问题,其语义模式实际上是可抽象、可结构化的。它或许没有大模型那般“万能的想象力”,但在 BI 这个需要确定性、可靠性与成本控制的领域,这种专注于“解决特定问题”的另辟蹊径,无疑是一条值得重视的务实之路。它的强大建立在“词典”的完备性上,对于词典之外的“新词”和“新说法”,它是真的“无能为力”。:NLQ 首先将句子拆解为“去年”、“北京”、“发往”、“青岛”、“订单”等关键令牌,并过滤掉“的”等无实际查询意义的虚词。

2025-11-27 08:30:45 142

原创 「2025年全年」Flink2.x全年更新盘点和特性解析

这个能力不用过多介绍了。Flink 2.0版本正式引入了"解耦式状态管理"(Disaggregated State Management) 架构,从根本上改变了Flink处理和管理状态的方式,使其从传统的计算与存储紧密耦合的模式,演进为支持计算与存储分离的现代化架构。DeltaJoin的核心思想是,不再存储完整的输入数据流,而是通过结合外部索引(如kv存储或其他数据库)和变更日志(Changelog)处理来实现Join,把状态存储压力转移到外部系统,消除Flink状态瓶颈,降低了Flink作业的资源消耗。

2025-11-17 08:31:11 523

原创 10+中大厂大数据Offer,社招校招实习面试,我们来给10月份做个总结。

社招上的一些变化,就跟我们之前一直讲的,时代变化太快,从中小厂向上跳的同学们一定要注意自己简历中项目的深度和技术栈的广度和前沿性。同学们共拿到Offer14个,这些同学一半多是社招,大部分是中大公司的offer,top公司offer4个,当然薪水也非常高(这个时代变化很快,不能否认传统技能的重要性,但是面试说到底是考试的一种,需要横向PK,所以获胜的关键就在于用长处取胜。校招同学们请注意,实习要摆在第一位,然后配合技能上的深入。,受到大家强烈欢迎,我们还在持续新增新的面经进去,欢迎大家加入星球!

2025-11-06 16:13:52 377

原创 Paimon小文件问题深度解析与优化实践

因为每个Sink子任务都会有自己的WriteBuffer,并发度越高,总的WriteBuffer数量就越多,在Checkpoint触发时,可能会同时刷写更多的小文件。因此,Paimon Sink的并发度建议与表的Bucket数量保持一致,确保每个Sink子任务(Subtask)可以独立地处理一个Bucket的数据,避免数据在Sink节点之间进行重分布(Shuffle),从而提高写入效率。,可以把更多的数据在内存中进行累积和排序,从而在每次刷写时生成体积更大的L0文件,从源头上减少小文件的数量。

2025-11-03 08:30:43 1349

原创 Kafka再进化,4.1.0版本中的新特性!

Kafka4.1.0版本中,KIP-1071引入了一个全新的、专为Kafka Streams设计的再平衡协议,该协议基于KIP-848中全新的消费者组协议构建,从根本上解决传统再平衡过程中存在的"Stop-the-World"问题,提升流处理应用的伸缩性和可靠性。此外,4.1版本还深化了全新消费者组协议(KIP-848)的应用,增强事务处理的服务器端防御和错误处理的一致性,并在客户端API、监控和安全认证方面进行了多项实用改进。Kafka 4.1.0版本在功能层面引入了很多创新,其中最引人注目的包括。

2025-10-30 08:30:47 548

原创 「2025年全年」Doris2025全年核心特性总结

就在10月21日,Doris发布了4.0版本,本次发布围绕 "AI 驱动、搜索增强、离线提效" 三大核心方向,新增向量索引、AI 函数等关键特性,完善搜索功能矩阵,优化离线计算稳定性与资源利用率。新增 ICU/IK/Basic 三大分词器,中文日志分词准确率提升18%,电话号、UUID可自定义Edge-Ngram前缀索引,召回率 100%;纵观2025年,Doris从2.x版本后进行2次大版本的升级,分别在湖仓、AI领域持续发力,如果你想尝试湖仓一体、AI能力,那么版本升级势在必行。

2025-10-28 08:30:35 1119

原创 【2025年下半】PaimonxDoris湖仓一体方案各大公司生产实践和优化总结

Paimon作为数据湖存储,核心优势体现在存储层:其开放格式(兼容 Spark、Flink、Trino等多引擎)、基于对象存储(S3、HDFS)的 PB 级弹性扩展能力,以及对事务、Schema 演进的原生支持,使其成为海量异构数据的"统一存储基座",兼顾低成本与兼容性。只需要在DWS层,创建一张主键聚合表。支持基于 Paimon 的物化视图,包括分区级别的增量物化视图构建,以及本文后续将要介绍的基于快照级别的增量构建,同时支持强一致的物化视图透明改写能力,将湖和仓的能力深度结合。

2025-10-20 08:40:23 1280

原创 我们用了2个月时间,整理了200+场次大厂面试专题!

内容本身基本涵盖了当前市面上各个叫得出名字来的公司,技术内容包含了:离线、实时计算、数据湖、OLAP等等,适用范围从初入行业1-3年的新人到工作10年+的行业大佬都可以。但是我们必须客观的讲,这些面经大多数问题都比较资深,不是所有问题都给出了答案,也需要读者自己做思考,然后借助搜索工具或者在知识星球讨论,这样的你才能完全掌握它。一些有共性的、高价值的内容我会整理成视频,然后发布在B站,你可以在闲暇时间多刷一刷,汲取一些灵感,这部分当成补充内容即可。比如很多同学的疑问是,某种做法适合我的业务场景吗?

2025-10-16 08:31:06 393

原创 生产环境建议使用吗?Doris3.1版本再进化,解读一下这些能力!

批量分片执行:针对湖表的数据分片较多,通过分批次生产数据分片信息,并且边生产边执行,能够有效缓解 FE 的内存开销,同时能够让分片信息的生产和执行并行执行,提升整体的执行效率。动态分区裁剪:能够在多表关联查询场景下,根据右表数据生成分区列谓词,并对左表数据进行运行时的分区剪枝,从而减少数据 IO,提升查询性能;看到网上还没有对新版本的解读,我们今天抛砖引玉,看一下3.1版本中的新的能力在生产环境的使用。这是一个非常巨大的进步,很多公司有非常多的场景从ES向Doris迁移,可以保证查询效率不降低。

2025-10-13 08:30:53 1158

大数据面试大总结300页.zip

大数据面试大总结300页.zip

2021-07-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除