- 博客(1013)
- 资源 (43)
- 收藏
- 关注
原创 SQL中繁琐的Case When 如何优化?
SQL优化新思路:数学映射法替代CASE WHEN 本文提出用数学映射法优化SQL中CASE WHEN的五大场景: 聚合统计:将布尔条件转为整数乘法(如SUM(salary*(status='ACTIVE'))),消除分支提升向量化计算效率 枚举翻译:用字典表JOIN替代硬编码(如支付类型映射),通过哈希连接实现O(1)查询 范围判断:利用数学函数(GREATEST、CEIL)替代分段条件,如CEIL(age/10.0)划分年龄段 WHERE子句:通过逻辑等价拆分(OR/UNION ALL)避免索引失效,恢
2026-06-09 11:00:00
41
原创 声明式之美:超越 CRUD 的 SQL
《SQL思维跃迁:从过程式到集合与状态思维的范式转换》 本文揭示了高效SQL编程的核心思维转变:摒弃传统过程式循环逻辑,转向关系代数的集合映射和状态流转思维。通过三个经典案例(关系除法、会话切割、漏斗分析)的对比解析,文章展示了集合运算(差集/基数映射)和窗口函数(LAG/状态累加)如何替代变量维护与循环遍历,以声明式方法实现复杂逻辑。关键顿悟在于:1)用NOT EXISTS和集合运算替代逐行查找;2)用LAG+窗口函数模拟状态机;3)通过MATCH_RECOGNIZE等实现时间序列模式匹配。文末提供的&q
2026-06-05 11:00:00
618
原创 SQL内核修炼:ICU 医疗监护 — 多设备“危险重叠期”识别 | 详解扫描线算法
消除嵌套与循环:它将 O(N^2)的区间两两比对,降维成了 O(NlogN)的排序 + O(N) 的线性扫描。在 SQL 中,这意味着避免了昂贵的CROSS JOIN或复杂的自关联。状态机思维:它把复杂的几何/时间问题,抽象成了简单的“状态机”。只需要关心“进入”和“离开”对系统当前状态的影响。高度可扩展:无论是求交集(并发数 ≥2 )、求并集(并发数 ≥1 )、还是求差集(A 的并发数 =1且 B 的并发数=0 ),只需要在步骤 4 修改WHERE条件即可,底层的数据流转逻辑完全不变。
2026-06-04 11:00:00
38
原创 数仓面试提问:项目里最难的是什么,如何回答?
这是一道常见的“分水岭”问题。几乎所有的求职者都有几率碰到该问题,也是求职者最头疼、最恶心的一道题目,今天我们就聊一聊,当求职者遇到该问题时应如何应对,本文总结了四类场景供求职者参考。首先,我们来看一下当面试官抛出这个问题时的真实意图是什么?项目的真实性:只有亲手踩过坑的人,才能把细节说清楚。技术深度与广度:你遇到的“难点”是低级错误(如SQL写错),还是具有挑战性的架构/性能/业务问题?解决问题的方法论:面对未知问题,你的排查思路、技术选型和落地能力如何?
2026-06-03 12:00:00
44
原创 阿里大数据开发面试:星型和雪花模型的trade-off是什么?实际中如何选?
星型模型和雪花模型是数据仓库维度建模的两种核心结构。星型模型采用去规范化维度表,查询性能高但存储冗余大;雪花模型通过规范化维度表节省空间但增加查询复杂度。现代数据仓库更倾向星型模型或宽表设计,因其能充分利用廉价存储和高效扫描能力。实际应用中常采用混合架构:底层规范化保证数据质量,上层反规范化优化查询性能。关键权衡点包括查询性能、存储空间、易用性和ETL复杂度等。
2026-06-02 12:15:00
35
原创 利用SQL求解城市天际线问题| LeetCode 218题
无论是用 Python 的最大堆,还是用 SQL 的左连接+分组聚合打破实体的边界:不要盯着“一栋栋楼”看,要把楼拆碎,变成时间/空间轴上的“事件”。维护“活跃状态池”:扫描线本身没有记忆,你必须用一个数据结构(堆、Multiset、或者 SQL 的 JOIN 匹配)来记录“当前扫描线穿透了哪些实体”。只关注“状态突变”:海量的事件点中,90% 都是无效的(被遮挡的、高度没变的)。真正的业务价值(天际线的转折、系统的报警、用户的流失)只发生在状态池的极值(MAX)发生翻转的那一瞬间。往期精彩。
2026-06-01 15:00:00
466
原创 业务问题:用“孤岛与间隙”算法计算设备宕机时长与 MTTR
孤岛与间隙”算法不仅仅是一个 SQL 技巧,更是一种将“离散状态”转化为“连续事件”的数据建模思维。通过LAG()寻找边界,通过划分孤岛,我们成功将碎片化的 IoT 上报数据,转化为了支撑 MTTR 计算、SLA 考核和预测性维护的坚实数据基石。掌握了这个算法,无论是用户的“连续登录天数”、HR 的“请假区间合并”,还是金融的“连续异常交易拦截”,你都能游刃有余地给出优雅的 SQL 解决方案。
2026-06-01 12:00:00
48
原创 某制造业面试题:LOT历史日志设备空值数据补全问题
摘要:本文针对半导体晶圆制造中批次流转日志的设备编号空值问题,提出基于SQL窗口函数的分层数据清洗方案。通过划分制程区间(JobPrep~JobOut)和制程间隙(JobOut~JobPrep)两种场景,分别采用区间内JobIn设备填充和沿用前序制程设备的补全规则。方案利用窗口函数实现制程分组和空值填充,无需存储过程即可完成全量数据修复。该纯SQL方案对半导体及其他离散制造业的生产日志治理具有通用参考价值,能有效解决设备统计失真、制程追溯失效等业务痛点。
2026-05-28 12:00:00
47
原创 面试问:建模中粒度设计不当会造成什么影响?
数据粒度是数据仓库设计的核心要素,直接影响系统性能和业务价值。粒度过细会导致存储成本激增、查询性能下降、ETL流程复杂化;粒度过粗则会丢失细节信息,限制分析深度。此外,不同主题域间的粒度不一致会引发数据口径冲突和集成困难。合理的粒度设计应遵循分层原则(ODS保留原始粒度,DWD采用原子粒度,DWS轻度汇总,ADS高度汇总),以业务需求为导向,平衡性能与分析需求,同时保持粒度一致性并预留扩展空间。错误的粒度决策将造成系统性影响且修复成本高昂。
2026-05-19 11:00:00
52
原创 SQL数据分析实战:电商新品高流量低转化问题
摘要:某电商平台智能收纳盒新品上线15天转化率仅0.9%,远低于行业平均水平。通过SQL数据分析发现:1)流量质量问题突出,65%流量来自低转化(0.5%)的限时秒杀渠道;2)详情页到加购环节流失率高达97.2%;3)新品价格较竞品高12%但缺乏差异化价值;4)用户反馈中性价比和质量顾虑占比达77%。建议立即优化流量结构,重构详情页展示,加强信任背书,并调整价格策略。
2026-05-13 12:00:00
68
原创 SQL数据分析:购物篮分析
摘要:本文提出一种基于购物篮分析的电商商品组合优化方案,通过计算支持度、置信度和提升度三大指标识别商品关联性。方案采用SQL实现,包含表结构设计、核心查询逻辑及性能优化措施,支持过滤无效组合并自动生成关联等级标签。该方案适用于商品捆绑套餐设计、搭配推荐和库存优化等场景,能有效提升客单价和库存周转率。通过配置定时任务,可实现商品关联规则的自动化更新,为电商运营提供数据驱动的决策支持。
2026-05-12 12:00:00
62
原创 SQL数据分析实战:物流轨迹行为区间划分
摘要: 针对物流运输中零散轨迹数据难以直接分析时效指标的问题,提出一种基于HiveSQL的轨迹点连续区间划分方法。该方法以运单ID和运输方式为分组维度,通过LAG窗口函数计算相邻轨迹点时间差,当时间差超过30分钟时标记新区间,并利用SUM窗口函数生成连续区间编号。最终输出每个区间的起止时间、持续时长和轨迹点数量,为干线运输时效监控、异常节点排查和运营数据复盘提供结构化数据支撑。该方案采用经典的"岛屿问题"算法,能有效识别连续在途或停靠行为区间,满足物流时效分析的标准化需求。
2026-05-06 10:00:00
49
原创 数据治理:数据波动如何校验?
分为:固定阈值、环比、同比、分位数、动态基线、业务分段阈值 等6 种方案。小于 5 分位数:突降异常适合:无法固定百分比阈值、数据分布不稳定的场景。上期无数据时,不直接算报错,改为:判断当前量是否突增阈值。:指标常年稳定、值域固定(如:单客单价、商品固定单价)节假日、系统维护日、版本迭代日,临时屏蔽波动规则。:日度常规指标:订单量、用户数、交易额、流水量。:抹平单日偶发波动,基线更平稳,告警更精准。极少用波动,只做:数据量 > 0、延迟监控。:强周期业务(周末、节假日、月度周期)
2026-04-29 10:00:00
65
原创 SQL数据分析实战:物流轨迹行为区间划分
本文提出一种基于HiveSQL的物流轨迹行为区间划分方法,用于解决零散轨迹点无法直接反映运输时效指标的问题。通过将运单轨迹按照运输方式和行为类型分组,以30分钟为阈值划分连续的在途/停靠区间。采用LAG窗口函数获取相邻轨迹时间差,SUM函数累计标记新区间,最终输出每个区间的起止时间、持续时长和轨迹点数量。该方法可有效支撑物流时效监控、异常排查和运营复盘三大业务场景,为运输路线优化、异常处理和绩效评估提供数据支持。核心算法采用经典的"岛屿问题"解决方案,通过窗口函数实现高效的时间序列处理,
2026-04-29 09:00:00
68
原创 新浪科技数据开发面试题
1 先自我介绍一下,面试官还介绍了一下部门的整体情况2 将你做的项目看看整体介绍一下,用了哪些湖仓架构,对于实时指标有哪些3 对于实时来说你感觉难点在哪,如果一个任务挂了你短时间找不到问题如何及时止损,如何解决这个问题4 对于实时指标来说主要是分为哪些,比如实时DAU实时营收,以及实时转化数据,还有实时画像,都是涉及到吗,怎么实现这些指标不丢数据5 对于实时任务出现oom主要是哪一块引起的,怎么避免这个oom,对于oom出现的场景有哪些方面会出现呢。
2026-04-28 14:00:00
262
原创 如何判断一个表需要配置 DQC?
摘要:判断表是否需要配置DQC(数据质量检查)需综合考虑5个维度:1)数据资产等级(核心表必配,重要表建议配);2)业务影响程度(影响核心指标、决策或下游系统的表);3)变更频率(高频变更表必配);4)数据来源可靠性(多源/外部/ETL加工表需特殊校验);5)历史问题频率(曾出问题的表优先配置)。不同级别表需配置不同数量规则,核心表要求3种以上规则且100%监控。
2026-04-28 13:00:00
208
原创 字节大数据开发面经(中国交易与广告)| 校招
本文整理了数据仓库工程师面试中的高频问题,涵盖技术架构、项目实战和解决方案三大维度。技术方面重点考察数仓分层设计(如DWS层界定)、Doris列式存储特点、Spark性能优化(对比MR)以及数据处理技巧(开窗函数、数据倾斜解决);项目层面关注难点突破(如增量同步方案)、建模方法论(主题域划分)和AI应用(如指标自动化开发);解决方案类涉及慢任务调优、跨域整合策略及SQL优化(如分桶技术对比)。面试还包含典型场景题如订单状态推断、数仓治理规范等,全面检验候选人的技术深度和业务理解能力。
2026-04-24 16:00:00
246
原创 为什么本体论在企业落地步履维艰?
企业本体论落地的现实困境与突破路径 摘要:企业本体论建设面临技术门槛高、数据基础薄弱、认知偏差、实施复杂和周期长五大现实障碍。其中业务侧的标准化意愿不足是核心瓶颈,表现为业务人员缺乏抽象思维、部门存在本位主义。破解之道在于:分层推进本体建模,先基础后业务域;轻量化完成业务抽象梳理;选择痛点场景试点突破。最终要实现全域本体建设,必须上升为一把手工程,依靠高层统筹打破部门壁垒,建立长效运营机制。本体论落地本质是业务知识标准化与组织协同问题,技术只是实现手段。
2026-04-24 12:00:00
1041
原创 业务灵魂提问:能不能先做报表,等业务稳定了再建数仓?
摘要:业务初期直接开发报表看似快捷,但长期会导致数据混乱、维护成本激增等问题。建议采用"极简数仓底座+快速报表"的折中方案:1)建立ODS层隔离业务库;2)统一核心指标口径;3)搭建简易DWD/DWS宽表;4)报表全部基于数仓开发。这种模式既能满足短期快速出数需求,又能为后期扩展留足空间,避免返工风险,实现短期高效与长期稳定的平衡。(149字)
2026-04-23 09:00:00
730
原创 Doris 三大模型对比:明细(Duplicate)、主键(Unique)、聚合(Aggregate)
数据库模型选型指南:DuplicateKey、UniqueKey和AggregateKey是三种核心数据模型,分别适用于不同场景。DuplicateKey保留全量原始数据,适合日志存储和明细分析;UniqueKey保证主键唯一性,支持更新操作,适用于订单系统和用户资料;AggregateKey通过预聚合提高查询性能,适合固定报表和实时统计。选型需考虑数据保留需求、更新频率和查询模式,实践中可混合使用这三种模型以获得最佳效果。
2026-04-22 10:00:00
744
原创 报表和数仓结果一样,企业为什么还要砸钱建数仓?
数据仓库与直接业务库报表看似结果一致,实则存在本质差异。本文剖析了数仓的7大核心价值:统一数据口径、隔离分析流量、沉淀通用能力、管控数据质量、整合多系统数据、权限合规管理及数据资产沉淀。通过真实案例指出,直接做报表虽短期省钱,但会带来口径混乱、系统崩溃、重复开发等隐性成本。数仓建设是长期主义选择,通过前期投入搭建标准化数据底座,可避免后期高额重构成本,为企业数字化转型奠定坚实基础。
2026-04-21 13:00:00
569
原创 面试问:请讲一下你在数仓各层是如何设计多时区处理逻辑的?
本文档详细阐述了数据仓库中各层级处理时区问题的规范方案。ODS层保留原始时间数据不做转换,仅存储源端时区标识;DWD层负责将数据统一转换为标准时区(优先UTC),保留原始时间字段;DWS层按常用业务时区预聚合数据;ADS层直接输出目标时区结果。同时设计了公共时区维度表(dim_time_zone)来管理全球时区信息,包含时区编码、偏移量、夏令时规则等关键字段。全流程遵循"原始时区不篡改、计算层统一标准、应用层直接输出"原则,确保时间数据可追溯且避免多层转换误差。
2026-04-21 12:00:00
47
原创 腾讯新闻-数据工程实习-一面
摘要:本文记录了技术面试中的高频问题,涵盖AI技能、大数据框架(Spark/Flink)、Java基础(类加载机制)、Spring框架(AOP/Boot)等技术点,重点讨论了Spark数据倾斜实战案例和连续子数组算法题。同时整理了数仓工程师核心考点,包括分层设计(DWS层界定)、增量同步方案、SQL优化(硬编码处理/差集查询)及建模规范(订单履约/状态推断)。面试中暴露出对框架底层原理的遗忘问题,建议加强Spark Join类型、类加载机制等基础知识的复习。
2026-04-21 09:30:00
86
原创 如何判断一个指标能否放入DWS层?
摘要:DWS层数据准入规范明确要求指标必须符合轻度聚合、跨业务复用、口径统一等标准。准入流程需验证指标类型、聚合粒度、口径一致性、复用性、性价比及宽表融合性。适合DWS层的指标包括通用稳定的跨业务聚合指标(如日销售总额),而明细数据、专属指标、实时计算等则归属其他层级。该规范旨在确保DWS层数据的一致性、查询性能和架构可维护性。
2026-04-20 09:15:00
380
原创 360 数据开发 1面
1 先自我介绍一下2 聊一下你做的项目,里面的技术细节,和技术难点,这一块主要是技术点主要是哪些3 对于你的湖仓技术你准备选啥组件,为啥这样选,选的技术主要是考虑哪方面,对于时效性可以保证吗4 离线的话财务数据和流量数据侧重点哪一块不一致,财务指标如何确保计算可靠,没有问题5 对于任务的时效和dqc的配置都有哪些需要配置的,如何确保都覆盖了6 对于实时任务都有哪些类型,如果进行实时维表的建设主要是考虑哪方面,数据怎么确保不丢。
2026-04-17 16:00:00
95
原创 玩转本体:不同专业视角下的本体?
本文从多学科视角探讨"本体"概念:哲学中研究存在的本质;数学/运筹学聚焦问题域的核心结构;计算机领域体现为面向对象思维;数据工程表现为业务实体与元数据规范;算法工程则关注核心特征与信息压缩。各学科虽定义不同,但都指向对事物本质结构的抽象与提炼,反映了跨领域的思维共性。
2026-04-17 10:00:00
372
原创 大数据数仓工程师面试问题积累 | 附参考答案
核心建设事实表+维度表事实表:交易事实表、行为事实表、财务流水事实表(明细级,存储度量值);维度表:用户维度、商品维度、商户维度、时间维度、地域维度(冗余存储维度属性);汇总模型:DWS层按天/小时/区域/品类轻度汇总,ADS层业务指标宽表(如营收日报、用户行为汇总表)。Flink是流批一体的分布式计算引擎,核心优势:低延迟、高吞吐、精确一次语义、状态管理、窗口灵活;用于实时数据同步、实时计算、实时数仓建设。
2026-04-16 12:00:00
482
原创 海豚调度器:解决SQL执行时间与数据库时间不一致(东八区完整配置方
【摘要】针对海豚调度器(DolphinScheduler)执行SQL任务时出现的多时区不一致问题,本文提供完整的东八区改造方案。通过修改环境变量(dolphinscheduler_env.sh)强制指定MySQL连接和JVM时区,统一调整四个核心角色(alert/api/master/worker-server)的application.yaml配置文件中的时区设置,执行重装脚本后验证三处时间(任务日志、数据库存储、页面展示)是否统一。方案强调必须修改所有角色配置并重启服务,同时给出MySQL时区校验方法和
2026-04-16 09:00:00
426
原创 MiniMax 数据工程师一面
本文聚焦AI领域的技术面试要点,主要包括:1)自我介绍与项目经验,重点阐述Agent/RAG项目的数据处理难点及解决方案;2)技术基础涵盖大模型架构(Transformer)、Agent核心模块(规划/工具调用/记忆)、RAG全流程(文档处理/检索/排序)及向量数据库优化;3)算法方向涉及召回率优化和错误数据处理;4)业务理解包括提升Agent准确性的方法、高质量训练数据构建,以及对MiniMaxAgent的优化建议。同时附带数据仓库相关面试题,涉及分层策略、SQL优化、增量计算等实战场景。
2026-04-15 12:00:00
496
原创 既然流程已经SOP化、规则明确,为什么不用传统代码,反而要用大模型?
大模型的核心价值在于处理企业流程中"看似标准化实则模糊多变"的任务,而非完全替代传统代码。对于高度标准化、高并发的SOP流程,传统代码仍是首选。但现实中大多数SOP存在模糊规则、例外场景和非结构化数据,传统代码开发维护成本极高。大模型能通过语义理解处理隐性经验,快速适应流程变化,以远低于定制系统的成本实现灵活部署。二者的关系是互补而非替代:代码擅长精确执行,大模型长于理解适配。
2026-04-14 13:00:00
535
原创 DWS轻度汇总层的度怎么界定?
摘要:DWS层轻度汇总的"度"界定需要平衡查询性能与分析灵活性,主要体现在5个维度:1)粒度介于明细层与高度聚合层之间(如按用户日而非单次行为);2)保留核心分析维度(用户ID、商品ID等);3)进行1-3个维度的基础聚合(COUNT/SUM/AVG);4)数据量控制在明细层的10%-30%;5)面向通用场景而非单一报表。设计原则是以适度预计算提升查询效率,同时保持数据下钻和多维分析能力,避免过度聚合导致灵活性丧失。
2026-04-14 09:00:00
358
原创 滴滴数据研发工程师一面| 含参考答案
本文摘要:文章系统梳理了数据仓库建设与管理的核心知识点,涵盖数仓架构设计原则(分层建模、总线矩阵)、开发流程(需求分析到上线运维)、关键能力(OLAP引擎选型、开窗函数应用)及治理要点(SLA/DQC配置)。重点解析了维度建模方法论、Doris数据模型特点,并提供了需求落地、指标定义、面试应答的实用框架,强调业务驱动与技术合理性的平衡,为数据从业者提供从理论到实践的全方位指导。
2026-04-13 13:00:00
753
原创 数仓治理:基于update_time增量同步方案的生产落地规范
本文是一份数据仓库增量同步规范指南,围绕update_time字段建立全链路治理体系。核心内容包括:1)业务库建表强制规范(自动维护update_time、逻辑删除、索引);2)水位线元数据表设计及同步规则;3)ODS层抽取去重规范;4)DWD层合并方案;5)多级监控对账机制;6)应急处理流程。规范强调数据一致性、幂等性和可追溯性,通过标准化流程确保增量同步不重不漏,最终以月度全量修复作为兜底保障。
2026-04-13 12:00:00
92
原创 数仓建设初期数据量如何预估?
数据量预估是数仓建设的关键环节,需综合考虑源系统存量/增量、业务规模、数仓分层系数(ODS 1.0、DWD 1.1-1.2、DWS 0.1-0.3、ADS 0.01-0.05)、保留周期和技术架构。核心公式包括单表日增量计算、分层数据量转换和总存量预估,其中埋点/日志数据通常占80%存储。预估时建议:1)日志数据优先估算;2)预留30%冗余;3)考虑3副本和压缩比(3-5倍);4)初期误差±30%可接受。典型案例显示,50万DAU的日志数据90天存量可达1.6TB(经压缩),而10万日订单的业务数据年增量仅
2026-04-10 10:00:00
1069
原创 快手大数据开发一面 | 实习70min
该面试流程主要考察数据开发相关能力,包含以下重点:1.基础能力测试(SQL题、row_number函数、distinct与group by区别);2.项目经验考察(优化案例、指标设计、实时项目);3.理论知识(数仓分层、维度建模);4.综合能力(Spark问题定位、代码优化)。面试涉及2道SQL实操题(用户订单时间统计、学生成绩筛选)及业务理解(实习公司产品、指标设计思路)。最后包含反问环节,整体考察点覆盖数据开发核心技能要求。
2026-04-09 12:30:00
218
原创 面试问:DS中数仓分层调度策略是怎样的?是所有的任务都写到一个WF中吗?
摘要:DolphinScheduler采用"单层单流+主控串联"分层架构设计,将数仓任务划分为ODS、DWD、DWS、ADS四层独立工作流,通过主控流实现层级串联。每层具有差异化策略:ODS层侧重稳定性,DWD层关注数据质量,DWS层优化性能,ADS层确保时效性。该架构通过子工作流引用、资源隔离和条件依赖等机制,解决了传统大DAG的维护困难、资源瓶颈等问题,同时支持精准补数和故障隔离。实践表明,这种分层调度模式能有效提升数据管线的可靠性和运维效率。
2026-04-09 09:00:00
43
原创 高效工作方法论:六大核心SOP详解
本文系统介绍了职场高效工作的5个SOP(标准操作流程):1)任务接收闭环管理(精准接收-闭环执行-结果反馈);2)结构化周报撰写(成果量化+问题暴露+计划明确);3)金字塔式汇报(结论先行+选项建议+结构化总结);4)PDCA项目管理(计划-执行-检查-处理循环);5)项目复盘三步法(数据回顾-根因分析-知识沉淀)。这些SOP的核心在于形成工作闭环,通过标准化流程实现主动对齐、价值传递和持续改进,最终提升工作效率和质量。
2026-04-08 12:00:00
424
原创 从面向对象角度看本体论?
摘要:面向对象编程(OOP)和本体论虽然都采用"类+属性+关系"的结构,但本质目的截然不同。OOP关注程序执行,通过封装数据和行为实现功能;本体论则专注于语义表达,通过定义概念和约束来消除歧义。核心差异在于:OOP具有行为方法和封闭世界假设,而本体论仅包含纯语义描述并采用开放世界假设。本体论独有的不相交约束、多继承等特性使其能支持自动推理,这是OOP无法实现的。二者分别服务于"怎么做"和"是什么"的不同需求。
2026-04-08 10:00:00
860
原创 数据本体论 vs 数仓实体建模?
数据本体论与数仓实体建模对比分析 数据本体论和数仓实体建模是两种不同的数据组织方法。数据本体论源于哲学存在论,强调语义统一,通过概念、属性、关系和公理来描述业务知识,支持自动推理,适用于知识图谱和智能应用。数仓实体建模则以实体为中心,通过表结构、字段和外键来优化数据存储与查询性能,服务于BI分析和报表需求。 核心区别在于:数据本体论关注"业务是什么",具有语义表达和推理能力;数仓实体建模关注"数据怎么存",侧重存储效率和查询性能。两者可互补使用,本体论提供语义基础,实
2026-04-07 12:00:00
625
原创 字节广告数开一面 | 实习
本文涉及大数据开发与数仓建模的核心技术要点。实习内容聚焦数据建模,处理日增百万级数据表,构建星型/雪花模型。重点解决Spark数据倾斜问题,剖析其执行流程、Shuffle机制及Join实现,包括AQE动态优化原理。对比Hive与Doris技术差异,说明报表迁移至Doris的性能优势。探讨MySQL B+树索引特性,数仓分层价值,以及跨域数据整合方案。包含SQL高级函数应用案例(NTILE分桶、多字段极值)、活动指标计算逻辑,并分析JOIN数据膨胀原因。针对业务指标差异问题,提出本体论建模方法与维度缺失时的同
2026-04-06 12:00:00
81
企业级AI Agent(智能体)价值及应用报告2025.pdf人工智能企业级AI Agent技术架构与多场景应用:金融、制造、医疗行业智能体实践及商业化路径研究
2026-03-17
清华大学:Gemini科研手册指南(2026年).pdf人工智能基于图谱与多智能体协同的自适应检索增强生成框架研究:面向企业级复杂问答的系统2推理模型设计
2026-03-17
北京大学-Agentic Coding:从Vibe Coding到超级个体的进化之路.pdf软件工程AI编程范式演进:从Vibe Coding到Agentic Coding的技术变革与超级个体崛起路径
2026-03-17
SAP Business AI.pdf【企业人工智能】基于SAP Business AI的智能业务流程优化:实现财务、供应链与人力资源管理的自动化决策与价值增长
2026-03-22
人工智能基于AI中台的智能制造架构设计:数据治理与多模态模型在工业质检与供应链优化中的应用系统
2026-03-22
OpenClaw橙皮书:从入门到精通2026.pdf【人工智能】基于开源架构的自主Agent系统:OpenClaw多平台部署与技能生态构建技术解析
2026-03-17
清华大学-OpenClaw发展研究1.0报告 by 清新研究.pdf人工智能基于OpenClaw的数字员工系统研究:开源代理生态下的生产力范式重塑与一人公司经济模型构建
2026-03-17
【部门版教程】Claude Code简介与安装.docx软件工程基于大模型的编程辅助工具Claude Code安装与应用:实现自然语言驱动的自动化代码开发与项目管理
2026-03-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅