莫叫石榴姐-CSDN博客

原创 SQL中繁琐的Case When 如何优化？

SQL优化新思路：数学映射法替代CASE WHEN 本文提出用数学映射法优化SQL中CASE WHEN的五大场景：聚合统计：将布尔条件转为整数乘法（如SUM(salary*(status='ACTIVE'))），消除分支提升向量化计算效率枚举翻译：用字典表JOIN替代硬编码（如支付类型映射），通过哈希连接实现O(1)查询范围判断：利用数学函数（GREATEST、CEIL）替代分段条件，如CEIL(age/10.0)划分年龄段 WHERE子句：通过逻辑等价拆分（OR/UNION ALL）避免索引失效，恢

2026-06-09 11:00:00 41

原创声明式之美：超越 CRUD 的 SQL

《SQL思维跃迁：从过程式到集合与状态思维的范式转换》本文揭示了高效SQL编程的核心思维转变：摒弃传统过程式循环逻辑，转向关系代数的集合映射和状态流转思维。通过三个经典案例（关系除法、会话切割、漏斗分析）的对比解析，文章展示了集合运算（差集/基数映射）和窗口函数（LAG/状态累加）如何替代变量维护与循环遍历，以声明式方法实现复杂逻辑。关键顿悟在于：1）用NOT EXISTS和集合运算替代逐行查找；2）用LAG+窗口函数模拟状态机；3）通过MATCH_RECOGNIZE等实现时间序列模式匹配。文末提供的&q

2026-06-05 11:00:00 618

原创 SQL内核修炼：ICU 医疗监护 — 多设备“危险重叠期”识别 | 详解扫描线算法

消除嵌套与循环：它将 O(N^2)的区间两两比对，降维成了 O(Nlog⁡N)的排序 + O(N) 的线性扫描。在 SQL 中，这意味着避免了昂贵的CROSS JOIN或复杂的自关联。状态机思维：它把复杂的几何/时间问题，抽象成了简单的“状态机”。只需要关心“进入”和“离开”对系统当前状态的影响。高度可扩展：无论是求交集（并发数 ≥2 ）、求并集（并发数 ≥1 ）、还是求差集（A 的并发数 =1且 B 的并发数=0 ），只需要在步骤 4 修改WHERE条件即可，底层的数据流转逻辑完全不变。

2026-06-04 11:00:00 38

原创数仓面试提问：项目里最难的是什么，如何回答？

这是一道常见的“分水岭”问题。几乎所有的求职者都有几率碰到该问题，也是求职者最头疼、最恶心的一道题目，今天我们就聊一聊，当求职者遇到该问题时应如何应对，本文总结了四类场景供求职者参考。首先，我们来看一下当面试官抛出这个问题时的真实意图是什么？项目的真实性：只有亲手踩过坑的人，才能把细节说清楚。技术深度与广度：你遇到的“难点”是低级错误（如SQL写错），还是具有挑战性的架构/性能/业务问题？解决问题的方法论：面对未知问题，你的排查思路、技术选型和落地能力如何？

2026-06-03 12:00:00 44

原创阿里大数据开发面试：星型和雪花模型的trade-off是什么?实际中如何选？

星型模型和雪花模型是数据仓库维度建模的两种核心结构。星型模型采用去规范化维度表，查询性能高但存储冗余大；雪花模型通过规范化维度表节省空间但增加查询复杂度。现代数据仓库更倾向星型模型或宽表设计，因其能充分利用廉价存储和高效扫描能力。实际应用中常采用混合架构：底层规范化保证数据质量，上层反规范化优化查询性能。关键权衡点包括查询性能、存储空间、易用性和ETL复杂度等。

2026-06-02 12:15:00 35

原创利用SQL求解城市天际线问题| LeetCode 218题

无论是用 Python 的最大堆，还是用 SQL 的左连接+分组聚合打破实体的边界：不要盯着“一栋栋楼”看，要把楼拆碎，变成时间/空间轴上的“事件”。维护“活跃状态池”：扫描线本身没有记忆，你必须用一个数据结构（堆、Multiset、或者 SQL 的 JOIN 匹配）来记录“当前扫描线穿透了哪些实体”。只关注“状态突变”：海量的事件点中，90% 都是无效的（被遮挡的、高度没变的）。真正的业务价值（天际线的转折、系统的报警、用户的流失）只发生在状态池的极值（MAX）发生翻转的那一瞬间。往期精彩。

2026-06-01 15:00:00 466

原创业务问题：用“孤岛与间隙”算法计算设备宕机时长与 MTTR

孤岛与间隙”算法不仅仅是一个 SQL 技巧，更是一种将“离散状态”转化为“连续事件”的数据建模思维。通过LAG()寻找边界，通过划分孤岛，我们成功将碎片化的 IoT 上报数据，转化为了支撑 MTTR 计算、SLA 考核和预测性维护的坚实数据基石。掌握了这个算法，无论是用户的“连续登录天数”、HR 的“请假区间合并”，还是金融的“连续异常交易拦截”，你都能游刃有余地给出优雅的 SQL 解决方案。

2026-06-01 12:00:00 48

原创某制造业面试题：LOT历史日志设备空值数据补全问题

摘要：本文针对半导体晶圆制造中批次流转日志的设备编号空值问题，提出基于SQL窗口函数的分层数据清洗方案。通过划分制程区间（JobPrep~JobOut）和制程间隙（JobOut~JobPrep）两种场景，分别采用区间内JobIn设备填充和沿用前序制程设备的补全规则。方案利用窗口函数实现制程分组和空值填充，无需存储过程即可完成全量数据修复。该纯SQL方案对半导体及其他离散制造业的生产日志治理具有通用参考价值，能有效解决设备统计失真、制程追溯失效等业务痛点。

2026-05-28 12:00:00 47

原创面试问：建模中粒度设计不当会造成什么影响？

数据粒度是数据仓库设计的核心要素，直接影响系统性能和业务价值。粒度过细会导致存储成本激增、查询性能下降、ETL流程复杂化；粒度过粗则会丢失细节信息，限制分析深度。此外，不同主题域间的粒度不一致会引发数据口径冲突和集成困难。合理的粒度设计应遵循分层原则（ODS保留原始粒度，DWD采用原子粒度，DWS轻度汇总，ADS高度汇总），以业务需求为导向，平衡性能与分析需求，同时保持粒度一致性并预留扩展空间。错误的粒度决策将造成系统性影响且修复成本高昂。

2026-05-19 11:00:00 52

原创 SQL数据分析实战：电商新品高流量低转化问题

摘要：某电商平台智能收纳盒新品上线15天转化率仅0.9%，远低于行业平均水平。通过SQL数据分析发现：1）流量质量问题突出，65%流量来自低转化（0.5%）的限时秒杀渠道；2）详情页到加购环节流失率高达97.2%；3）新品价格较竞品高12%但缺乏差异化价值；4）用户反馈中性价比和质量顾虑占比达77%。建议立即优化流量结构，重构详情页展示，加强信任背书，并调整价格策略。

2026-05-13 12:00:00 68

原创 SQL数据分析：购物篮分析

摘要：本文提出一种基于购物篮分析的电商商品组合优化方案，通过计算支持度、置信度和提升度三大指标识别商品关联性。方案采用SQL实现，包含表结构设计、核心查询逻辑及性能优化措施，支持过滤无效组合并自动生成关联等级标签。该方案适用于商品捆绑套餐设计、搭配推荐和库存优化等场景，能有效提升客单价和库存周转率。通过配置定时任务，可实现商品关联规则的自动化更新，为电商运营提供数据驱动的决策支持。

2026-05-12 12:00:00 62

原创 SQL数据分析实战：物流轨迹行为区间划分

摘要：针对物流运输中零散轨迹数据难以直接分析时效指标的问题，提出一种基于HiveSQL的轨迹点连续区间划分方法。该方法以运单ID和运输方式为分组维度，通过LAG窗口函数计算相邻轨迹点时间差，当时间差超过30分钟时标记新区间，并利用SUM窗口函数生成连续区间编号。最终输出每个区间的起止时间、持续时长和轨迹点数量，为干线运输时效监控、异常节点排查和运营数据复盘提供结构化数据支撑。该方案采用经典的"岛屿问题"算法，能有效识别连续在途或停靠行为区间，满足物流时效分析的标准化需求。

2026-05-06 10:00:00 49

原创数据治理：数据波动如何校验？

分为：固定阈值、环比、同比、分位数、动态基线、业务分段阈值等6 种方案。小于 5 分位数：突降异常适合：无法固定百分比阈值、数据分布不稳定的场景。上期无数据时，不直接算报错，改为：判断当前量是否突增阈值。：指标常年稳定、值域固定（如：单客单价、商品固定单价）节假日、系统维护日、版本迭代日，临时屏蔽波动规则。：日度常规指标：订单量、用户数、交易额、流水量。：抹平单日偶发波动，基线更平稳，告警更精准。极少用波动，只做：数据量 > 0、延迟监控。：强周期业务（周末、节假日、月度周期）

2026-04-29 10:00:00 65

原创 SQL数据分析实战：物流轨迹行为区间划分

本文提出一种基于HiveSQL的物流轨迹行为区间划分方法，用于解决零散轨迹点无法直接反映运输时效指标的问题。通过将运单轨迹按照运输方式和行为类型分组，以30分钟为阈值划分连续的在途/停靠区间。采用LAG窗口函数获取相邻轨迹时间差，SUM函数累计标记新区间，最终输出每个区间的起止时间、持续时长和轨迹点数量。该方法可有效支撑物流时效监控、异常排查和运营复盘三大业务场景，为运输路线优化、异常处理和绩效评估提供数据支持。核心算法采用经典的"岛屿问题"解决方案，通过窗口函数实现高效的时间序列处理，

2026-04-29 09:00:00 68

原创新浪科技数据开发面试题

1 先自我介绍一下，面试官还介绍了一下部门的整体情况2 将你做的项目看看整体介绍一下，用了哪些湖仓架构，对于实时指标有哪些3 对于实时来说你感觉难点在哪，如果一个任务挂了你短时间找不到问题如何及时止损，如何解决这个问题4 对于实时指标来说主要是分为哪些，比如实时DAU实时营收，以及实时转化数据，还有实时画像，都是涉及到吗，怎么实现这些指标不丢数据5 对于实时任务出现oom主要是哪一块引起的，怎么避免这个oom，对于oom出现的场景有哪些方面会出现呢。

2026-04-28 14:00:00 262

原创如何判断一个表需要配置 DQC？

摘要：判断表是否需要配置DQC（数据质量检查）需综合考虑5个维度：1）数据资产等级（核心表必配，重要表建议配）；2）业务影响程度（影响核心指标、决策或下游系统的表）；3）变更频率（高频变更表必配）；4）数据来源可靠性（多源/外部/ETL加工表需特殊校验）；5）历史问题频率（曾出问题的表优先配置）。不同级别表需配置不同数量规则，核心表要求3种以上规则且100%监控。

2026-04-28 13:00:00 208

原创字节大数据开发面经（中国交易与广告）| 校招

本文整理了数据仓库工程师面试中的高频问题，涵盖技术架构、项目实战和解决方案三大维度。技术方面重点考察数仓分层设计（如DWS层界定）、Doris列式存储特点、Spark性能优化（对比MR）以及数据处理技巧（开窗函数、数据倾斜解决）；项目层面关注难点突破（如增量同步方案）、建模方法论（主题域划分）和AI应用（如指标自动化开发）；解决方案类涉及慢任务调优、跨域整合策略及SQL优化（如分桶技术对比）。面试还包含典型场景题如订单状态推断、数仓治理规范等，全面检验候选人的技术深度和业务理解能力。

2026-04-24 16:00:00 246

原创为什么本体论在企业落地步履维艰？

企业本体论落地的现实困境与突破路径摘要：企业本体论建设面临技术门槛高、数据基础薄弱、认知偏差、实施复杂和周期长五大现实障碍。其中业务侧的标准化意愿不足是核心瓶颈，表现为业务人员缺乏抽象思维、部门存在本位主义。破解之道在于：分层推进本体建模，先基础后业务域；轻量化完成业务抽象梳理；选择痛点场景试点突破。最终要实现全域本体建设，必须上升为一把手工程，依靠高层统筹打破部门壁垒，建立长效运营机制。本体论落地本质是业务知识标准化与组织协同问题，技术只是实现手段。

2026-04-24 12:00:00 1041

原创业务灵魂提问：能不能先做报表，等业务稳定了再建数仓？

摘要：业务初期直接开发报表看似快捷，但长期会导致数据混乱、维护成本激增等问题。建议采用"极简数仓底座+快速报表"的折中方案：1）建立ODS层隔离业务库；2）统一核心指标口径；3）搭建简易DWD/DWS宽表；4）报表全部基于数仓开发。这种模式既能满足短期快速出数需求，又能为后期扩展留足空间，避免返工风险，实现短期高效与长期稳定的平衡。（149字）

2026-04-23 09:00:00 730

原创 Doris 三大模型对比：明细(Duplicate)、主键(Unique)、聚合(Aggregate)

数据库模型选型指南：DuplicateKey、UniqueKey和AggregateKey是三种核心数据模型，分别适用于不同场景。DuplicateKey保留全量原始数据，适合日志存储和明细分析；UniqueKey保证主键唯一性，支持更新操作，适用于订单系统和用户资料；AggregateKey通过预聚合提高查询性能，适合固定报表和实时统计。选型需考虑数据保留需求、更新频率和查询模式，实践中可混合使用这三种模型以获得最佳效果。

2026-04-22 10:00:00 744

原创报表和数仓结果一样，企业为什么还要砸钱建数仓？

数据仓库与直接业务库报表看似结果一致，实则存在本质差异。本文剖析了数仓的7大核心价值：统一数据口径、隔离分析流量、沉淀通用能力、管控数据质量、整合多系统数据、权限合规管理及数据资产沉淀。通过真实案例指出，直接做报表虽短期省钱，但会带来口径混乱、系统崩溃、重复开发等隐性成本。数仓建设是长期主义选择，通过前期投入搭建标准化数据底座，可避免后期高额重构成本，为企业数字化转型奠定坚实基础。

2026-04-21 13:00:00 569

原创面试问：请讲一下你在数仓各层是如何设计多时区处理逻辑的？

本文档详细阐述了数据仓库中各层级处理时区问题的规范方案。ODS层保留原始时间数据不做转换，仅存储源端时区标识；DWD层负责将数据统一转换为标准时区（优先UTC），保留原始时间字段；DWS层按常用业务时区预聚合数据；ADS层直接输出目标时区结果。同时设计了公共时区维度表(dim_time_zone)来管理全球时区信息，包含时区编码、偏移量、夏令时规则等关键字段。全流程遵循"原始时区不篡改、计算层统一标准、应用层直接输出"原则，确保时间数据可追溯且避免多层转换误差。

2026-04-21 12:00:00 47

原创腾讯新闻-数据工程实习-一面

摘要：本文记录了技术面试中的高频问题，涵盖AI技能、大数据框架（Spark/Flink）、Java基础（类加载机制）、Spring框架（AOP/Boot）等技术点，重点讨论了Spark数据倾斜实战案例和连续子数组算法题。同时整理了数仓工程师核心考点，包括分层设计（DWS层界定）、增量同步方案、SQL优化（硬编码处理/差集查询）及建模规范（订单履约/状态推断）。面试中暴露出对框架底层原理的遗忘问题，建议加强Spark Join类型、类加载机制等基础知识的复习。

2026-04-21 09:30:00 86

原创如何判断一个指标能否放入DWS层？

摘要：DWS层数据准入规范明确要求指标必须符合轻度聚合、跨业务复用、口径统一等标准。准入流程需验证指标类型、聚合粒度、口径一致性、复用性、性价比及宽表融合性。适合DWS层的指标包括通用稳定的跨业务聚合指标（如日销售总额），而明细数据、专属指标、实时计算等则归属其他层级。该规范旨在确保DWS层数据的一致性、查询性能和架构可维护性。

2026-04-20 09:15:00 380

原创 360 数据开发 1面

1 先自我介绍一下2 聊一下你做的项目，里面的技术细节，和技术难点，这一块主要是技术点主要是哪些3 对于你的湖仓技术你准备选啥组件，为啥这样选，选的技术主要是考虑哪方面，对于时效性可以保证吗4 离线的话财务数据和流量数据侧重点哪一块不一致，财务指标如何确保计算可靠，没有问题5 对于任务的时效和dqc的配置都有哪些需要配置的，如何确保都覆盖了6 对于实时任务都有哪些类型，如果进行实时维表的建设主要是考虑哪方面，数据怎么确保不丢。

2026-04-17 16:00:00 95

原创玩转本体：不同专业视角下的本体？

本文从多学科视角探讨"本体"概念：哲学中研究存在的本质；数学/运筹学聚焦问题域的核心结构；计算机领域体现为面向对象思维；数据工程表现为业务实体与元数据规范；算法工程则关注核心特征与信息压缩。各学科虽定义不同，但都指向对事物本质结构的抽象与提炼，反映了跨领域的思维共性。

2026-04-17 10:00:00 372

原创大数据数仓工程师面试问题积累 | 附参考答案

核心建设事实表+维度表事实表：交易事实表、行为事实表、财务流水事实表（明细级，存储度量值）；维度表：用户维度、商品维度、商户维度、时间维度、地域维度（冗余存储维度属性）；汇总模型：DWS层按天/小时/区域/品类轻度汇总，ADS层业务指标宽表（如营收日报、用户行为汇总表）。Flink是流批一体的分布式计算引擎，核心优势：低延迟、高吞吐、精确一次语义、状态管理、窗口灵活；用于实时数据同步、实时计算、实时数仓建设。

2026-04-16 12:00:00 482

原创海豚调度器：解决SQL执行时间与数据库时间不一致（东八区完整配置方

【摘要】针对海豚调度器(DolphinScheduler)执行SQL任务时出现的多时区不一致问题，本文提供完整的东八区改造方案。通过修改环境变量（dolphinscheduler_env.sh）强制指定MySQL连接和JVM时区，统一调整四个核心角色（alert/api/master/worker-server）的application.yaml配置文件中的时区设置，执行重装脚本后验证三处时间（任务日志、数据库存储、页面展示）是否统一。方案强调必须修改所有角色配置并重启服务，同时给出MySQL时区校验方法和

2026-04-16 09:00:00 426

原创 MiniMax 数据工程师一面

本文聚焦AI领域的技术面试要点，主要包括：1）自我介绍与项目经验，重点阐述Agent/RAG项目的数据处理难点及解决方案；2）技术基础涵盖大模型架构（Transformer）、Agent核心模块（规划/工具调用/记忆）、RAG全流程（文档处理/检索/排序）及向量数据库优化；3）算法方向涉及召回率优化和错误数据处理；4）业务理解包括提升Agent准确性的方法、高质量训练数据构建，以及对MiniMaxAgent的优化建议。同时附带数据仓库相关面试题，涉及分层策略、SQL优化、增量计算等实战场景。

2026-04-15 12:00:00 496

原创既然流程已经SOP化、规则明确，为什么不用传统代码，反而要用大模型？

大模型的核心价值在于处理企业流程中"看似标准化实则模糊多变"的任务，而非完全替代传统代码。对于高度标准化、高并发的SOP流程，传统代码仍是首选。但现实中大多数SOP存在模糊规则、例外场景和非结构化数据，传统代码开发维护成本极高。大模型能通过语义理解处理隐性经验，快速适应流程变化，以远低于定制系统的成本实现灵活部署。二者的关系是互补而非替代：代码擅长精确执行，大模型长于理解适配。

2026-04-14 13:00:00 535

原创 DWS轻度汇总层的度怎么界定？

摘要：DWS层轻度汇总的"度"界定需要平衡查询性能与分析灵活性，主要体现在5个维度：1）粒度介于明细层与高度聚合层之间（如按用户日而非单次行为）；2）保留核心分析维度（用户ID、商品ID等）；3）进行1-3个维度的基础聚合（COUNT/SUM/AVG）；4）数据量控制在明细层的10%-30%；5）面向通用场景而非单一报表。设计原则是以适度预计算提升查询效率，同时保持数据下钻和多维分析能力，避免过度聚合导致灵活性丧失。

2026-04-14 09:00:00 358

原创滴滴数据研发工程师一面| 含参考答案

本文摘要：文章系统梳理了数据仓库建设与管理的核心知识点，涵盖数仓架构设计原则（分层建模、总线矩阵）、开发流程（需求分析到上线运维）、关键能力（OLAP引擎选型、开窗函数应用）及治理要点（SLA/DQC配置）。重点解析了维度建模方法论、Doris数据模型特点，并提供了需求落地、指标定义、面试应答的实用框架，强调业务驱动与技术合理性的平衡，为数据从业者提供从理论到实践的全方位指导。

2026-04-13 13:00:00 753

原创数仓治理：基于update_time增量同步方案的生产落地规范

本文是一份数据仓库增量同步规范指南，围绕update_time字段建立全链路治理体系。核心内容包括：1）业务库建表强制规范（自动维护update_time、逻辑删除、索引）；2）水位线元数据表设计及同步规则；3）ODS层抽取去重规范；4）DWD层合并方案；5）多级监控对账机制；6）应急处理流程。规范强调数据一致性、幂等性和可追溯性，通过标准化流程确保增量同步不重不漏，最终以月度全量修复作为兜底保障。

2026-04-13 12:00:00 92

原创数仓建设初期数据量如何预估？

数据量预估是数仓建设的关键环节，需综合考虑源系统存量/增量、业务规模、数仓分层系数（ODS 1.0、DWD 1.1-1.2、DWS 0.1-0.3、ADS 0.01-0.05）、保留周期和技术架构。核心公式包括单表日增量计算、分层数据量转换和总存量预估，其中埋点/日志数据通常占80%存储。预估时建议：1）日志数据优先估算；2）预留30%冗余；3）考虑3副本和压缩比（3-5倍）；4）初期误差±30%可接受。典型案例显示，50万DAU的日志数据90天存量可达1.6TB（经压缩），而10万日订单的业务数据年增量仅

2026-04-10 10:00:00 1069

原创快手大数据开发一面 | 实习70min

该面试流程主要考察数据开发相关能力，包含以下重点：1.基础能力测试（SQL题、row_number函数、distinct与group by区别）；2.项目经验考察（优化案例、指标设计、实时项目）；3.理论知识（数仓分层、维度建模）；4.综合能力（Spark问题定位、代码优化）。面试涉及2道SQL实操题（用户订单时间统计、学生成绩筛选）及业务理解（实习公司产品、指标设计思路）。最后包含反问环节，整体考察点覆盖数据开发核心技能要求。

2026-04-09 12:30:00 218

原创面试问：DS中数仓分层调度策略是怎样的？是所有的任务都写到一个WF中吗？

摘要：DolphinScheduler采用"单层单流+主控串联"分层架构设计，将数仓任务划分为ODS、DWD、DWS、ADS四层独立工作流，通过主控流实现层级串联。每层具有差异化策略：ODS层侧重稳定性，DWD层关注数据质量，DWS层优化性能，ADS层确保时效性。该架构通过子工作流引用、资源隔离和条件依赖等机制，解决了传统大DAG的维护困难、资源瓶颈等问题，同时支持精准补数和故障隔离。实践表明，这种分层调度模式能有效提升数据管线的可靠性和运维效率。

2026-04-09 09:00:00 43

原创高效工作方法论：六大核心SOP详解

本文系统介绍了职场高效工作的5个SOP（标准操作流程）：1）任务接收闭环管理（精准接收-闭环执行-结果反馈）；2）结构化周报撰写（成果量化+问题暴露+计划明确）；3）金字塔式汇报（结论先行+选项建议+结构化总结）；4）PDCA项目管理（计划-执行-检查-处理循环）；5）项目复盘三步法（数据回顾-根因分析-知识沉淀）。这些SOP的核心在于形成工作闭环，通过标准化流程实现主动对齐、价值传递和持续改进，最终提升工作效率和质量。

2026-04-08 12:00:00 424

原创从面向对象角度看本体论?

摘要：面向对象编程(OOP)和本体论虽然都采用"类+属性+关系"的结构，但本质目的截然不同。OOP关注程序执行，通过封装数据和行为实现功能；本体论则专注于语义表达，通过定义概念和约束来消除歧义。核心差异在于：OOP具有行为方法和封闭世界假设，而本体论仅包含纯语义描述并采用开放世界假设。本体论独有的不相交约束、多继承等特性使其能支持自动推理，这是OOP无法实现的。二者分别服务于"怎么做"和"是什么"的不同需求。

2026-04-08 10:00:00 860

原创数据本体论 vs 数仓实体建模？

数据本体论与数仓实体建模对比分析数据本体论和数仓实体建模是两种不同的数据组织方法。数据本体论源于哲学存在论，强调语义统一，通过概念、属性、关系和公理来描述业务知识，支持自动推理，适用于知识图谱和智能应用。数仓实体建模则以实体为中心，通过表结构、字段和外键来优化数据存储与查询性能，服务于BI分析和报表需求。核心区别在于：数据本体论关注"业务是什么"，具有语义表达和推理能力；数仓实体建模关注"数据怎么存"，侧重存储效率和查询性能。两者可互补使用，本体论提供语义基础，实

2026-04-07 12:00:00 625

原创字节广告数开一面 | 实习

本文涉及大数据开发与数仓建模的核心技术要点。实习内容聚焦数据建模，处理日增百万级数据表，构建星型/雪花模型。重点解决Spark数据倾斜问题，剖析其执行流程、Shuffle机制及Join实现，包括AQE动态优化原理。对比Hive与Doris技术差异，说明报表迁移至Doris的性能优势。探讨MySQL B+树索引特性，数仓分层价值，以及跨域数据整合方案。包含SQL高级函数应用案例（NTILE分桶、多字段极值）、活动指标计算逻辑，并分析JOIN数据膨胀原因。针对业务指标差异问题，提出本体论建模方法与维度缺失时的同

2026-04-06 12:00:00 81

智能制造深层剖析.pptx

2026-03-17

企业级AI Agent（智能体）价值及应用报告2025.pdf人工智能企业级AI Agent技术架构与多场景应用：金融、制造、医疗行业智能体实践及商业化路径研究

内容概要：本报告系统阐述了企业级AI Agent（智能体）在2025年的发展现状、核心价值、技术架构、行业应用及未来趋势。AI Agent已从概念走向生产级应用，凭借大模型、工具调用、自主规划与多智能体协作等能力，成为推动企业生产力再造的新一代数字员工。报告指出，企业级AI Agent的核心在于“执行力”与“可靠交付”，其价值体现在打通数据孤岛、重塑工作流程、实现从“降本增效”到“模式创新”的跃迁。通过金融、制造、医疗

2026-03-17

西门子数字化工厂介绍（82页PPT）.pptx

2026-03-17

智慧物流赋能制造业数字化转型.pdf

2026-03-17

AI面试典型客户案例集（2026版）.pdf

2026-03-17

AI面试官实战指南-精选案例集.pdf

2026-03-17

清华大学：Gemini科研手册指南（2026年）.pdf人工智能基于图谱与多智能体协同的自适应检索增强生成框架研究：面向企业级复杂问答的系统2推理模型设计

清华大学：Gemini科研手册指南（2026年）.pdf内容概要：本文为《清华大学：Gemini科研手册指南（2026年）》，系统介绍了如何利用Gemini工具提升科研效率，涵盖选题生成、文献检索与综述、精读分析、文献对比、综述撰写、科研绘图、PPT制作、讲稿生成、代码复现与调试、智能体搭建等多个环节。手册强调Gemini在科研过程中的组织能力，主张“研究方案先行”，通过Deep Research等智能体实现从问题定义到成果输出的全流程支持。其核心优势在于打通“检索—筛选—引用—分析—可视化—写作”链条，支持结构化、可追溯、可复用的科研工作流，并结合具体实例提供了大量可操作的提示词公式。; 适合人群：科研新手、硕博研究生、青年科研人员及希望提升科研效率的研究者。; 使用场景及目标：①快速生成前瞻性的交叉学科研究选题；②开展系统性文献综述，构建清晰的研究脉络与分析框架；③高效完成科研绘图、汇报PPT与讲稿等成果展示材料；④精准复现论文算法与修复代码错误。; 阅读建议：本手册实践性强，建议读者结合自身研究课题，边阅读边在Gemini中尝试操作，重点掌握各类提示词公式的结构化设计思路，而非死记硬背。

2026-03-17

北京大学-Agentic Coding：从Vibe Coding到超级个体的进化之路.pdf软件工程AI编程范式演进：从Vibe Coding到Agentic Coding的技术变革与超级个体崛起路径

内容概要：本文系统阐述了AI编程从辅助编程（Copilot）向氛围编程（Vibe Coding）及智能代理式编程（Agentic Coding）的演进历程，介绍了Vibe Coding的核心特征、技术支撑及其在SPEC Coding和ID Coding范式中的发展，深入剖析了Cursor、Claude Code、Trae、Qoder、CodeBuddy等主流工具的技术架构与适用场景，并对比了不同工具在上下文窗口、响应速度、生态兼容性等方面的表现。文章进一步探讨了多智能体协作、企业级生态发展、开源Skill市场兴起等未来趋势，同时指出数据隐私、代码可维护性下降、技术依赖导致创新能力萎缩等潜在风险，最终提出开发者应从“如何实现”转向“定义问题”与“价值判断”，进化为具备业务洞察力、系统思维和伦理判断力的“超级个体”。; 适合人群：无编程

2026-03-17

307页｜OpenClaw 完全指南：从原理到实现的专家级解析.pdf

2026-03-17

销售提成自动计算表.xlsx

2026-03-17

销售提成自动结算分析表.xlsx

2026-03-17

销售提成计算表（分级阶梯计奖）.xlsx

2026-03-17

销售薪酬及提成表.xlsx

2026-03-17

全自动甘特图(傻瓜式操作).xlsx

2026-03-17

函数宝典-完整版.xlsx

2026-03-17

Excel函数大全实例讲解.xls

Excel函数大全【实例讲解】.xls

2026-03-17

Excel函数应用集（50+使用技巧）.xlsx

2026-03-17

股票投资业绩表格.xls

2026-03-17

股市赢利试算表.xls

2026-03-17

Excel将工作计划表变为进度条的模板.xlsx

2026-03-17

报表与数仓：为何结果一致仍需投入？.pptx

报表和数仓结果一样为何还要砸钱建数仓？

2026-04-19

本体论：企业智能化转型的核心引擎.pptx

2026-03-31

大数据体系化建设与实战经验分享.pptx

2026-03-29

企业数字化转型之路：本体论（Ontology）深度解析.pptx

2026-03-28

AI智能体赋能半导体行业汇报.pptx

2026-03-22

SAP Business AI.pdf【企业人工智能】基于SAP Business AI的智能业务流程优化：实现财务、供应链与人力资源管理的自动化决策与价值增长

内容概要：本文介绍了SAP Business AI如何通过嵌入式人工智能技术帮助企业实现业务价值提升。文档阐述了生成式AI在全球经济中每年可带来2.6至4.4万亿美元的增量价值，强调SAP AI以“相关性、可靠性、责任性”为核心原则，全面集成于其产品组合中，涵盖人力资源、采购、财务、供应链、客户关系管理等多个业务领域。SAP提供如Joule AI助手、Document Information Extraction、Just Ask自然语言查询等具体AI应用场景，助力企业自动化流程、增强决策洞察并提升员工生产力。同时，依托SAP Business Technology Platform（BTP）的AI基础服务，支持开发者构建安全、可控、基于企业数据的定制化AI应用。适合人群：企业数字化转型负责人、CIO、IT架构师、业务流程管理者以及希望在SAP环境中应用AI提升效率的开发人员与数据分析师。使用场景及目标：① 实现高频率重复任务的自动化处理（如交付单据处理、付款匹配）；② 提升信息消费者通过自然语言快速获取业务洞察的能力；③ 利用生成式AI优化内容生成、代码开发与数据治理；④ 构建可信、合规的企业级AI应用生态。阅读建议：建议结合SAP实际产品（如SAP S/4HANA、SuccessFactors、Analytics Cloud）进行场景对照学习，并重点关注Joule与各模块的集成方式及BTP平台上的AI开发工具链实践。

2026-03-22

智能工厂数字孪生与仿真规划.pptx

2026-03-22

智慧工地解决方案.pptx

2026-03-22

研发技术专用OKR绩效考核表.xls

2026-03-22

2025零代码AI应用指南-51页-250514113558.pdf

2025零代码AI应用指南-51页_250514113558.pdf

2026-03-22

人工智能基于AI中台的智能制造架构设计：数据治理与多模态模型在工业质检与供应链优化中的应用系统

内容概要：本文系统阐述了AI智能中台的架构设计理念与实践路径，重点围绕“用ABC+IOT重新定义制造”的主题，提出构建“智能中台”的整体框架。文档从探讨“中台”概念出发，区分了后台（Systems of Record）、中台（Systems of Differentiation）与前台（Systems of Innovation）的定位与特征，强调中台作为业务差异化能力的核心承载平台。结合制造业场景，提出“智造中台”的业务思路，涵盖研发、供应链、制造、营销等全链条，并通过百度在机器视觉质检、无人机盘点、煤矿安全监管等多个实际案例，展示了AI中台在工业领域的落地应用。整体架构包含数据中台（DaaS）与智能中台（AIaaS），通过模型工厂、数据工厂、通用AI能力（语音、图像、语义等）和业务中台（A-PaaS）的协同，实现数据治理、模型训练、服务化输出的闭环，推动企业从“制”到“智”的转型升级。适合人群：具备一定IT或工业信息化背景，从事智能制造、数字化转型、AI平台建设等相关工作的技术人员、架构师、项目经理及企业管理者。使用场景及目标：①指导制造企业构建AI驱动的智能中台，实现数据资产化和服务化；②为AI平台选型与技术架构设计提供参考，特别是在工业质检、安全生产、供应链优化等场景的应用落地；③推动企业组织与IT架构向平台化、服务化演进，提升业务响应速度与创新能力。阅读建议：建议结合制造业实际业务流程理解中台价值，重点关注数据治理、模型工厂实施路径及百度AI中台架构图，同时参考案例中的技术方案与成效，以理论结合实践的方式深入掌握智能中台的设计精髓。

2026-03-22

REC-owl2-syntax-20121211.pdf

2026-03-17

最全面的OpenClaw中文教程.pdf

2026-03-17

清华大学-AI谣言研究报告(OpenClaw版).pdf

2026-03-17

清华大学-OpenClaw发展研究报告2.0.pdf

2026-03-17

OpenClaw橙皮书：从入门到精通2026.pdf【人工智能】基于开源架构的自主Agent系统：OpenClaw多平台部署与技能生态构建技术解析

OpenClaw橙皮书：从入门到精通2026.pdf内容概要：《OpenClaw橙皮书：从入门到精通2026》是一份

2026-03-17

清华大学-OpenClaw发展研究1.0报告 by 清新研究.pdf人工智能基于OpenClaw的数字员工系统研究：开源代理生态下的生产力范式重塑与一人公司经济模型构建

内容概要：本报告系统研究了OpenClaw这一开源AI代理生态的社会影响、技术架构与未来发展趋势。OpenClaw作为“AI时代的Linux内核”，实现了从“对话助手”到“自主执行”的范式跃迁，具备本地优先、数据主权、自我进化、多模态执行等核心特性，支持通过技能商店扩展功能，并可在多通信平台中实现统一控制与主动任务执行。报告深入剖析其四层架构（大脑、交互、记忆、执行），揭示其如何支撑数字员工的持久化运行，并探讨其在一人公司、

2026-03-17

5-人力资源年龄结构分析（职位维度）.xlsx

2026-03-17

【部门版教程】Claude Code简介与安装.docx软件工程基于大模型的编程辅助工具Claude Code安装与应用：实现自然语言驱动的自动化代码开发与项目管理

内容概要：本文介绍了基于大模型的编程模式及其局限性，并引出新一代开发工具Claude Code作为解决方案。传统大模型编程依赖“对话+复制粘贴”的方式，存在上下文割裂、缺乏执行力和无法闭环等痛点。Claude Code则是一个能够深入工程环境的“编程副驾驶”，不仅能理解项目结构，还能自主分析、制定修改计划并动手执行代码更改、运行命令和调试，实现开发任务的自动化闭环。文章详细阐述了其核心能力，包括自主思考、规划执行一体化，并通过测试人员使用自然语言完成全流程开发的案例展示了其强大效能。同时提供了Windows和Mac系统的安装指南，涵盖Git、Node.js/nvm安装、全局CLI工具部署及对接国内智谱AI等配置步骤，最后给出

2026-03-17

数字化工厂蓝图总体规划及系统集成解决方案.pptx

2026-03-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人