- 博客(2137)
- 资源 (1)
- 收藏
- 关注
原创 Daft + Ray + Lance:构建下一代多模态数据流水线实践
在 Daft + Ray + Lance 这套栈中,Ray 的角色是分布式调度后端——它不直接处理数据逻辑,而是负责把 Daft 的 Worker 调度到集群的多台机器上。需要指出的是,这个 Benchmark 来自 Daft 官方,Anyscale(Ray 的商业化公司)也做过自己的对比测试,在某些场景下 Ray Data 会优于 Daft,尤其是在大规格实例(更多 CPU/GPU)上。做数据的朋友,最近两年应该都有一个共同的感受-你的数据 Pipeline 里,"正经"的结构化数据占比越来越少了。
2026-04-03 08:31:19
569
转载 引入Copilot,AI时代的报表开发新范式
不过,这也有个坏处,就是要求输入的语句有一定规范性,不能过于随意,其实这对于程序员来讲并不是多大的负担,程序员本来就习惯了更为严格的程序代码,这个 Copilot 要求规范复杂度远远低于程序语言(以及报表原来那些公式),甚至低于 Excel 水平,程序员掌握起来并没有难度,而且,Copilot 还配有贴心的帮助功能,全程辅助用户精准输入指令。Copilot 的每一步输出都是确定的,它根据规则生成的执行命令是清晰的,如果遇到听不懂的指令,它会提示“无法识别”,而不会像 LLM 编造一个似是而非的结果;
2026-03-17 08:31:01
31
原创 2026年的Redis-AI能力史诗级增强!
语义缓存的做法是:把用户的 query 转成向量,在缓存中找语义最接近的历史 query,如果相似度超过阈值,直接返回缓存的 LLM 响应。不是和 Milvus、Pinecone 争"最强向量数据库"的位置,而是打"一站式"的牌—你的缓存、向量、会话、特征,都可以放在同一个 Redis 里管理,减少架构复杂度。Redis 在其中承担的是向量存储和检索层的角色。这个模块的设计理念是"数据在哪里,计算就在哪里"——既然特征数据已经在 Redis 里了,不如直接在 Redis 内部完成推理,省去数据搬运的开销。
2026-03-16 08:30:49
367
原创 一个极简的AI Agentic Engineering技术栈学习路线
Anthropic的开发者们定义了这样一套和大模型交互的标准,但是这套标准争议很大,我个人的看法是:无论MCP还是Skill,大概率都是AI发展中的中间产物。这部分在使用Trae这样的工具的时候,不同的工具提供了不同的开发方式,例如Trae的SOLO Code、SOLO Build模式等,他们分别适用不同的场景,这个需要自己多多体验。但是客观的说,Sping AI更适合后端的微服务架构,更适合做大规模的生产服务,所以如果你有Java基础,可以直接从Spring AI开始学习。另外尽量节省token消耗。
2026-03-13 08:04:20
275
原创 Arthas Agent诊断利器来袭,从命令行到自然语言的跨越。
这款由阿里巴巴开源的Java诊断神器,在GitHub上斩获了37,000+Star,是无数Java程序员的线上排障必备工具。Arthas Agent将AI的自然语言理解能力与Arthas强大的诊断能力相结合,让Java应用诊断变得前所未有的简单。Agent 自动执行 thread -n 3,获取 CPU Top 3 线程,分析堆栈,给出诊断结论。截至2025年底,Arthas已迭代至4.x版本,最新版本带来了多项重磅更新:。理解自然语言:将你的诊断需求翻译成安全、精确的 Arthas 命令。
2026-03-12 08:31:22
321
原创 AI大模型相关数据类岗位技术面试重点。
这些部门和公司因为没有「技术债」,没有历史包袱,所以更加期望直接使用业内最前沿的技术方案,例如相当多的部门数据直接入湖,所以类似Hudi/Paimon类的框架掌握是基本要求。因为大模型所需要的数据多样,非标准数据占比高,多模态数据多,各种图片/视频/音频等所以需要用到大量的对象存储,例如云厂商OSS/COS等,开源的Minio/Ceph等。从技术上来讲,用到的技术栈和数仓方向没有显著的差异,但是需要一些大模型的基本知识,并且针对性的学习一些技术栈。主要是用来做数据的embedding,用来检索,召回;
2026-03-09 08:31:18
287
原创 大数据核心框架更新周报|ClickHouse多版本齐发、Fluss0.9发布、Delta Lake引入Catalog管理表
表级查询超时是一个实用的运维能力补充,对于存在个别慢查询表的集群有直接价值。:一周发布 5 个版本,看起来密集,但实际上是 ClickHouse 多分支并行维护策略的常规节奏,主要内容是各分支的安全补丁和 Bug 修复。Delta Lake 4.1.0 的 Catalog 管理表和 ClickHouse 26.2 的 BigLake 集成反映了同一个方向:Catalog 的角色正在从被动的"表在哪里"索引,转变为主动的表生命周期管理服务——负责提交协调、扫描规划、权限控制和跨表事务。
2026-03-06 09:01:28
460
转载 所有大数据人,今年的新方向,彻底赢麻了!!
讲解复杂技术的同时,还拥有非常丰厚的产品商业化经验,了解诸多行业内幕!只有充分了解大模型的技术原理、AI产品结构,才能了解背后的数据链。详细讲解案例的思路、应用场景,以及背后的技术原理、核心技术!既懂数据、又了解AI业务的数据人,势必是未来更抢手个和更具竞争力的AI数据人才!25年AI产品全面爆发!,能直接对话大佬和专业助教,不懂就问,超详细的案例,小白也能轻松get!,都可以直接在自己的工作中使用,让自己的产品/项目有可借鉴的成功案例!本次课程,专门面向数据人群,解析当下最热门的AI产品应用的必备的。
2026-03-05 09:04:39
41
转载 【AI驱动的学习策略】AI时代的学习思路和方式已经发生了根本性的改变。
这个过程就变成了,基于AI agent/SKILL构建/开发项目,把问题/解决方案/版本更新总结下来,这些总结反馈给新的AI agent/SKILL,让他的能力更上一层楼。现在有了AI的加成,你可以创建专属的SKILL,帮你把工作中遇到的问题,框架更新的内容整理成标准文档,这个文档可以投喂给你的另外的SKILL,让他的能力变得越来越强。很多同学包括我在内在接触/学习新的技能/框架的同时,会天然抗拒,因为接触到不懂的内容,而我的兴趣又不高,甚至是被动学习,从不懂到懂的过程是很痛苦的。
2026-03-04 09:01:27
32
原创 GPT用10分钟重构了我的小项目|海啸已经在地平线,新时代数据工程师的生存法则
Dario做了明确的判断:"写代码"这个动作会最先被AI替代,更广泛的软件工程(系统设计、需求理解、AI 团队管理)需要更长时间,但端到端的自动化,但是"也终将发生"。不过他引用了比较优势的概念-即使你只做5%的任务,AI做另外95%,你的产出效率变成了原来的20倍,那5%被极度放大了。截至2026年,有了GPT、Claude这样的大模型支持,传统的很多岗位都会消失,很多历史「定律」也会失效,学习方式也会有巨大的改变。没被加速的环节反而成了瓶颈,成了最值钱的东西。,这才是从业者在海啸到来前应该做的准备。
2026-03-02 09:02:57
331
原创 Anthropics官方对Claude Skills做了一次重大更新。
新增了agents/grader.md(评分员)、agents/comparator.md(对比员)和agents/analyzer.md(分析员),把Skill的创建从「概念说明」转为「流程化执行」。:包含了一些核心的高级能力,例如 docx(Word 处理)、pdf(PDF 读取)、pptx(PPT 生成)等,这些是Claude Code强大功能的底层实现。4. 推动规模化落地:标准化 + 可复用的规则,让 Skills 从「示例演示」走向企业级场景落地,为后续技能市场、智能触发等生态升级奠定基础。
2026-02-26 09:01:58
550
转载 很严重了,大家别轻易离职。。
只有充分了解大模型的技术原理、AI产品结构,才能了解背后的数据链。懂数据、了解AI业务,才能通过数据不断推动公司AI业务的优化与迭代!但冷静一想,如今行业下行,今年失业、转岗的数据人大有人在,原地降薪的比比皆是;本次课程,全程直播讲解,能直接对话大佬和专业助教,不懂就问,超详细的案例,小白也能轻松get。2天时间,从大模型原理出发,到真实的商业案例,全链路讲解产品完成所经历的各个环节,!,解析当下最热门的AI产品应用的必备的「大模型」、「多模态」的实际应用和算法原理。趁早规划,才能抢占先机。
2026-02-02 09:01:20
61
原创 2026年数据方向求职市场供需分析和未来建议【春节特别篇】
站在2026年的时间节点,我们站在市场供需的角度,客观看待在AI浪潮冲击下,作为个体如何做到利益最大化,避免成为AI浪潮下的牺牲品。全文内容结合了过去3年1400+同学的面试和Offer情况,对不同岗位当前的现状和未来发展给一个客观的评价。方便大家根据个人情况谨慎选择,AI时代变化太快,大家紧紧跟住市场最新变化,不要被甩下车。今天给大家分享的是,2026年数据方向岗位市场供需分析和求职建议以及应对策略。内容包括三部分:岗位分类,当前市场供需,未来建议。大家好,我们又见面了。
2026-01-20 20:37:33
419
原创 <span class=“js_title_inner“>2026年数据方向求职市场供需分析和未来建议【春节特别篇】</span>
站在2026年的时间节点,我们站在市场供需的角度,客观看待在AI浪潮冲击下,作为个体如何做到利益最大化,避免成为AI浪潮下的牺牲品。全文内容结合了过去3年1400+同学的面试和Offer情况,对不同岗位当前的现状和未来发展给一个客观的评价。方便大家根据个人情况谨慎选择,AI时代变化太快,大家紧紧跟住市场最新变化,不要被甩下车。今天给大家分享的是,2026年数据方向岗位市场供需分析和求职建议以及应对策略。内容包括三部分:岗位分类,当前市场供需,未来建议。大家好,我们又见面了。
2026-01-20 20:37:33
239
原创 为什么向量数据库 Milvus 很重要?
在技术实现上,Milvus 构建在 Faiss、HNSW、DiskANN、SCANN 等流行的向量搜索库之上,支持数据分片、流式数据摄取、动态 Schema、结合向量和标量数据的搜索、多向量和混合搜索、稀疏向量等高级功能。产品定位的差异还体现在应用场景的适配性上。目前Milvus最新版本为2.6,Milvus 2.6重点关注核心架构改进,包括更简单的部署、更少的依赖性、更快的数据摄取管道、更低的存储成本、更好地处理大规模数据操作、更高效的标量和全文搜索,以及支持最新的 Embeddings 模型。
2026-01-09 08:30:32
755
转载 2025年Apache社区新晋顶级项目名单,你的技术栈该升级了。
Uniffle 通过将 Shuffle 服务从计算引擎中彻底解耦,构建一个独立、可扩展、可共享的远程 Shuffle Service,使得计算任务可以更加专注于计算本身,而 Shuffle 数据的存储、传输与容错交由专门的服务负责。Gravitino 的价值在于提供一个跨系统、跨引擎的统一元数据视图,将数据资产、权限、血缘、标签等能力集中管理。在现实生产环境中,Spark、Flink、Java、SQL 引擎往往同时存在,不同任务适合不同执行引擎,但开发者和平台往往被迫提前做出选择,且切换成本极高。
2026-01-05 09:01:54
121
转载 再这样下去,数据岗的好日子怕是要到头了。。。
只有充分了解大模型的技术原理、AI产品结构,才能了解背后的数据链。详细讲解案例的思路、应用场景,以及背后的技术原理、核心技术!朋友小林最近很焦虑,“现在好多企业都开始招AI方向的数据了,不懂大模型,找工作都越来越难了。确实,过去一年,除了字节、百度等互联网大厂,各中小型企业,也都在加紧布局AI。,都可以直接在自己的工作中使用,让自己的产品/项目有可借鉴的成功案例!本次课程,专门面向数据人群,解析当下最热门的AI产品应用的必备的。而那些懂AI的,正在构建自己的护城河,成为市场争抢的人才!
2026-01-04 09:03:14
75
原创 「2025年全年总结」大模型 x 大数据深度融合盘点,新时代来临!
同时,⼤数据方向的框架迎来大升级,Flink 2.1、Spark 4.0等框架强化AI原⽣⽀持,向量数据库成为⾮结构化数据处理的核⼼基础设施,这两个方向的深度融合推动AI技术进入全新发展阶段。这标志着大模型不再仅仅是问答工具,而是具备了自主执行多步骤、复杂研究任务的能力,成为真正的研究助手;:以Qwen3-Max和DeepSeek R1为代表,MoE架构在2025年被广泛采用,它仅激活模型的一小部分参数进行推理,从而使高性能AI的部署成本降低了高达95%,加速了技术的普及;
2025-12-24 19:50:03
1024
原创 「2025年全年」Spark4.0时代,Spark全年更新核心特性总结和解析!
Spark在2025年经历了3.x到4.x系列的重要跨越,其中Spark4.0版本在今年的5月份发布,也标志着Spark进入了新的发展阶段,这些更新包括全新的ANSI SQL模式支持,多态UDTF,Real-Time Mode功能引进等功能性上的提升,也包含GPU加速和内存优化等技术带来的性能上的提升,以及Python API的全面改进等等,我们接下逐一解读这些变化。在这个基础上,Spark提供超过Flink的状态监控和查询能力:直接查询状态存储中的数据,监控状态的变化历史,以及诊断流处理中的问题。
2025-12-10 08:31:15
1433
1
原创 「2025年全年」Paimon全年更新核心特性总结和解析
第二个关于Shuffle优化,主要是缓解数据量较⼤时会导致启动缓慢和内存占⽤过⾼的问题,基于Bucket的Shuffle优化可以只加载和处理与其处理的Bucket相关的维度数据,从而减少了内存占⽤和数据加载时间,当然这个有一定前提要求维度表是固定Bucket(Fixed Bucket)表,并且Join的键包含所有Bucket键。除了上述的核心优化外,在写入性能上的优化还包含,支持带z-order排序的compaction等等,大家可以根据需要关注。OK,以上就是我们本次的总结了。
2025-11-28 17:43:20
746
转载 另辟蹊径的Text2SQL,不用大模型也能搞chatBI
诸如“上月销售额”、“销量最高的产品”、“北京地区的客户销售额”这类问题,其语义模式实际上是可抽象、可结构化的。它或许没有大模型那般“万能的想象力”,但在 BI 这个需要确定性、可靠性与成本控制的领域,这种专注于“解决特定问题”的另辟蹊径,无疑是一条值得重视的务实之路。它的强大建立在“词典”的完备性上,对于词典之外的“新词”和“新说法”,它是真的“无能为力”。:NLQ 首先将句子拆解为“去年”、“北京”、“发往”、“青岛”、“订单”等关键令牌,并过滤掉“的”等无实际查询意义的虚词。
2025-11-27 08:30:45
115
原创 「2025年全年」Flink2.x全年更新盘点和特性解析
这个能力不用过多介绍了。Flink 2.0版本正式引入了"解耦式状态管理"(Disaggregated State Management) 架构,从根本上改变了Flink处理和管理状态的方式,使其从传统的计算与存储紧密耦合的模式,演进为支持计算与存储分离的现代化架构。DeltaJoin的核心思想是,不再存储完整的输入数据流,而是通过结合外部索引(如kv存储或其他数据库)和变更日志(Changelog)处理来实现Join,把状态存储压力转移到外部系统,消除Flink状态瓶颈,降低了Flink作业的资源消耗。
2025-11-17 08:31:11
462
原创 10+中大厂大数据Offer,社招校招实习面试,我们来给10月份做个总结。
社招上的一些变化,就跟我们之前一直讲的,时代变化太快,从中小厂向上跳的同学们一定要注意自己简历中项目的深度和技术栈的广度和前沿性。同学们共拿到Offer14个,这些同学一半多是社招,大部分是中大公司的offer,top公司offer4个,当然薪水也非常高(这个时代变化很快,不能否认传统技能的重要性,但是面试说到底是考试的一种,需要横向PK,所以获胜的关键就在于用长处取胜。校招同学们请注意,实习要摆在第一位,然后配合技能上的深入。,受到大家强烈欢迎,我们还在持续新增新的面经进去,欢迎大家加入星球!
2025-11-06 16:13:52
367
原创 Paimon小文件问题深度解析与优化实践
因为每个Sink子任务都会有自己的WriteBuffer,并发度越高,总的WriteBuffer数量就越多,在Checkpoint触发时,可能会同时刷写更多的小文件。因此,Paimon Sink的并发度建议与表的Bucket数量保持一致,确保每个Sink子任务(Subtask)可以独立地处理一个Bucket的数据,避免数据在Sink节点之间进行重分布(Shuffle),从而提高写入效率。,可以把更多的数据在内存中进行累积和排序,从而在每次刷写时生成体积更大的L0文件,从源头上减少小文件的数量。
2025-11-03 08:30:43
1299
原创 Kafka再进化,4.1.0版本中的新特性!
Kafka4.1.0版本中,KIP-1071引入了一个全新的、专为Kafka Streams设计的再平衡协议,该协议基于KIP-848中全新的消费者组协议构建,从根本上解决传统再平衡过程中存在的"Stop-the-World"问题,提升流处理应用的伸缩性和可靠性。此外,4.1版本还深化了全新消费者组协议(KIP-848)的应用,增强事务处理的服务器端防御和错误处理的一致性,并在客户端API、监控和安全认证方面进行了多项实用改进。Kafka 4.1.0版本在功能层面引入了很多创新,其中最引人注目的包括。
2025-10-30 08:30:47
530
原创 「2025年全年」Doris2025全年核心特性总结
就在10月21日,Doris发布了4.0版本,本次发布围绕 "AI 驱动、搜索增强、离线提效" 三大核心方向,新增向量索引、AI 函数等关键特性,完善搜索功能矩阵,优化离线计算稳定性与资源利用率。新增 ICU/IK/Basic 三大分词器,中文日志分词准确率提升18%,电话号、UUID可自定义Edge-Ngram前缀索引,召回率 100%;纵观2025年,Doris从2.x版本后进行2次大版本的升级,分别在湖仓、AI领域持续发力,如果你想尝试湖仓一体、AI能力,那么版本升级势在必行。
2025-10-28 08:30:35
1051
原创 【2025年下半】PaimonxDoris湖仓一体方案各大公司生产实践和优化总结
Paimon作为数据湖存储,核心优势体现在存储层:其开放格式(兼容 Spark、Flink、Trino等多引擎)、基于对象存储(S3、HDFS)的 PB 级弹性扩展能力,以及对事务、Schema 演进的原生支持,使其成为海量异构数据的"统一存储基座",兼顾低成本与兼容性。只需要在DWS层,创建一张主键聚合表。支持基于 Paimon 的物化视图,包括分区级别的增量物化视图构建,以及本文后续将要介绍的基于快照级别的增量构建,同时支持强一致的物化视图透明改写能力,将湖和仓的能力深度结合。
2025-10-20 08:40:23
1234
原创 我们用了2个月时间,整理了200+场次大厂面试专题!
内容本身基本涵盖了当前市面上各个叫得出名字来的公司,技术内容包含了:离线、实时计算、数据湖、OLAP等等,适用范围从初入行业1-3年的新人到工作10年+的行业大佬都可以。但是我们必须客观的讲,这些面经大多数问题都比较资深,不是所有问题都给出了答案,也需要读者自己做思考,然后借助搜索工具或者在知识星球讨论,这样的你才能完全掌握它。一些有共性的、高价值的内容我会整理成视频,然后发布在B站,你可以在闲暇时间多刷一刷,汲取一些灵感,这部分当成补充内容即可。比如很多同学的疑问是,某种做法适合我的业务场景吗?
2025-10-16 08:31:06
386
原创 生产环境建议使用吗?Doris3.1版本再进化,解读一下这些能力!
批量分片执行:针对湖表的数据分片较多,通过分批次生产数据分片信息,并且边生产边执行,能够有效缓解 FE 的内存开销,同时能够让分片信息的生产和执行并行执行,提升整体的执行效率。动态分区裁剪:能够在多表关联查询场景下,根据右表数据生成分区列谓词,并对左表数据进行运行时的分区剪枝,从而减少数据 IO,提升查询性能;看到网上还没有对新版本的解读,我们今天抛砖引玉,看一下3.1版本中的新的能力在生产环境的使用。这是一个非常巨大的进步,很多公司有非常多的场景从ES向Doris迁移,可以保证查询效率不降低。
2025-10-13 08:30:53
1121
原创 几个有用&有趣的AI开源GitHub项目
这个项目和我们文章开头推荐的waytoagi是同一类,包含大模型(LLM)、RAG(检索增强生成)和AI智能体(Agent)应用搭建等一系列教程,并且它提供了一个完整的PDF可以直接下载学习!这个项目是一个教程与实践案例的集合库,如果你有一定的基础可以直接拿过来学习,如果没有的话可以用上面的waytoagi来入门学习一下。我们今天分享的是几个跟AI相关的开源项目,随着大模型的持续火爆,AI领域相关知识已经成了开发领域最炙手可热的技能。我们回到今天的正文,下面几个有用/有趣的开源项目大家可以多多了解!
2025-10-10 08:30:27
554
原创 Paimon数据丢失的常见场景和注意事项(避坑版)
模式的设计初衷是只更新指定字段,而不是处理整行数据的删除:如果想感知数据删除,业务上需要指定删除标记字段,让下游能识别上游的删除信号。Flink写Paimon资源分配不足导致CPU 100%,CheckPoint超时失败,直接强制重启任务,导致最新一次CheckPoint之后的数据丢失。流读表一定加 'consumer-id',确保快照不被清理,且保留时间≥最大停机时间,建议24h起步。:Flink写Paimon只有在任务的Checkpoint成功后才会commmit,失败后强制重启,内存缓冲区直接丢弃。
2025-09-24 08:30:37
552
原创 大数据提高班|中大厂Offer复盘记录
我是一月初开始的面试,春节后就收到了offer,经过对比后,选了一家心仪的中厂,成功入职,正式开启了职业生涯的新阶段。一直在探索转行,我是工作两年后就有了转行的念头,但是由于个人的懒惰(公司是外企,过于安逸,我迟迟没有跳出舒适圈),以及培训班的选择失误(先后踩过三个很坑的培训,被割了韭菜,就不依次说了)导致迟迟没有转行成功。入行半年左右,就感受到了小公司的局限性,虽然当时面的是大数据,但是工作中基本没用到大数据相关的技术,由于又是小城市,工资低,需要出差,工作强度也不低,没法做到在职学习。
2025-09-17 08:31:16
760
原创 物化视图生产环境真的建议用吗?
物化视图的定义 SQL 可以包含单表查询,也可以包含多表查询。分区增量刷新:当物化视图基表的分区数据发生变化时,识别出对应变化的分区并刷新这些分区,从而实现分区增量刷新,而无需刷新整个物化视图。针对多种外部数据源,可以将这些数据源所使用的表进行物化视图构建,以此来节省从外部表导入数据到内部表的成本,并且加速查询过程。在数据分层场景中,可以使用物化视图的嵌套来构建 DWD 和 DWM 层,利用物化视图的调度刷新能力。这里面除了性能上的考量,更重要的是可维护性,物化视图的维护复杂,直接操作线上库表,风险极高。
2025-09-10 08:30:28
568
原创 Flink2.1 AI+LLM大模型调用初体验
适当的调优可能显著提升运行AI函数的吞吐量和稳定性。此外,Flink 2.1的ML框架已经原生支持「Embedding→向量存储→向量检索→LLM」的RAG链路,我们后面再单独分享。扩展ML_PREDICT表值函数,支持通过Flink SQL实时调用AI模型,为构建端到端实时AI工作流奠定基础。新增AI模型DDL,支持通过Flink SQL与Table API创建和修改AI模型,实现AI模型的灵活管理。根据官方的文档,Flink对大模型的调用支持异步访问,并且默认打开。首先,Flink允许我们使用。
2025-08-25 08:31:16
881
1
原创 12天16场大数据模拟面试和复盘,以下是总结。
很多的同学在最初版的简历中「定位」较低,我经常听到的话是:「我在这个项目中只参与了xx部分的开发,其他的内容我不了解」,「我只做了xx的开发,yy内容是其他人做的,用的平台的能力」。这里我要跟大家说的是,我们在总结过去的工作履历时,首先站的位置一定是一个总揽全局的视角,是站在一个更高维度的层面去看待项目本身,不能站在一个基层的开发的角度去审视当前的项目。简历中的基本错误要坚决避免,因为有相当一部分的面试官看的非常仔细,会针对你的简历逐行阅读和提问,一个结构优雅,排版细致的简历给人的第一印象是非常好的。
2025-08-18 08:30:40
832
原创 【2025年上半】Doris在各大公司生产实践方案和优化总结
这里我们必须要提一个能力,Doris在2.1版本中引入了 Job Scheduler 功能,实现了自主任务调度能力,调度的精准度可达到秒级,这个能力大家可以谨慎评估接入使用,更推荐的是结合第三方的调度框架使用。实践证明,以Doris引擎为驱动的准实时数仓模式,有效解决了数据生产和查询的难题,同时满足业务对数据时效性和灵活性的需求。在该架构中,利用Doris的实时写入能力(如KafkaToDoris实现秒级延迟写入),配合可靠的 5、10、15、30分钟的调度保障能力,实现了业务数据的微批处理。
2025-08-05 08:30:19
1183
原创 早7晚11,大厂节奏崩不住了!附生存落地指南。
这是很多新人小伙伴,无论是应届生初入职场,或者从一家小而美的公司进入中大公司,尤其是几家工作节奏非常快的公司,遇到的第一个问题,环境改变很难适应。新人进入新的环境后,你需要做的是快速熟悉各种工具,包括线上沟通,打卡,公司IT服务等;并且十分建议大家主动找到你的上级沟通,这个沟通一般是在入职1周左右发起,把当前遇到的问题,未来工作计划聊清楚。迅速熟悉团队的文档,了解团队大概架构,核心的项目进展,不用追求细节,只求建立基本的认识。经过这四个阶段,恭喜你,你就可以完成在新的环境落地,生存下来了!
2025-08-01 17:01:32
597
原创 又被拷打了!我的锅。
我们非常理解大家在这个过程中的煎熬,你要做的是抛出问题,然后会得到正确的答案,这个过程没有人是一帆风顺的。并且作为求职者,在当前的大环境下,要主动去了解目标岗位的要求,个人需要重点准备的内容,如果大家不确定,这个过程我们会帮大家做好判断。此外,一些中大公司的面试要特别注意,这些中大厂的面试时有冷冻期的,一般是6个月甚至更长,而且面试过程会记录到系统中,所以要谨慎对待。每一次面试都是一次对自身掌握知识的查漏补缺,对于缺乏判断力的部分同学来说,可以拿着录音或者面试笔记,我们会协助进行复盘。
2025-07-29 11:58:29
8107
原创 菠菜公司开了60K,坐牢还是坐班?
如果你对这类岗位感兴趣,可以多多搜集相关资料,例如upwork、AbetterWeb3等等网站,此外需要自己学习相关领域的专业知识。随着web3,区块链等的兴起,加上过去几年类似zoom、teams这样的线上办公平台的兴趣,很多公司都有了remote岗位。例如根据笔者的了解,web3的岗位有钱包相关、智能合约、数据开发等各种岗位,他们的共同点是薪水非常高,全球灵活办公等。最后,带个免责声明,本文纯属分享他人经历,不做职业建议,不推荐风险业务关联公司,其中风险请读者自行甄别。大家好,今天分享的内容有点劲爆。
2025-07-25 08:31:28
339
原创 AI融合存算分离|Flink2025年核心更新汇总
这个能力主要是为了应对TB级别的状态存储与高吞吐、低延迟的访问要求,Flink2.0正式推出解耦式状态管理架构,通过异步执行框架ForSt和分层存储系统实现状态与计算分离,利用廉价的对象存储来共享数据,从而实现更灵活的资源调度、更高的可扩展性和更轻量稳定的容错能力。Flink社区的这种前瞻性考量也是非常值得称道,如果类似Flink、Spark这样的框架支持通过SQL和大模型进行交互,通过内置函数调用大模型服务,进而实现基于Flink/Spark SQL完成数据清洗、分析处理到AI推理的全链路实时计算。
2025-07-23 08:30:26
1150
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅