- 博客(676)
- 资源 (43)
- 收藏
- 关注
原创 SQL面试提问:如何找出每月GMV环比下降超20%的城市?
要找出每个城市每月GMV环比下降超过20%的情况,可以按照以下步骤进行:首先,按城市和月份聚合GMV数据,使用date_format提取年月并按城市分组求和。接着,通过窗口函数LAG获取同一城市上月的GMV数据。然后,计算环比变化率,并筛选出下降超过20%的记录。在处理过程中,需注意日期格式的兼容性、除零错误以及月份缺失问题。优化查询性能的方法包括增加分区字段或预聚合数据。此外,还需考虑如何处理上月GMV为0的情况,以及如何确保跨年排序的正确性。最终结果可用于业务改进,如排查异常原因并建立预警机制。
2025-05-23 09:00:00
9
原创 如何提升自己的职场思维?| 10个模型助你成为高效能人士
本文介绍了10个经过验证的思维模型,旨在帮助职场人士提升学习力、决策力、执行力和系统性思维。首先,通过“学习金字塔”和“费曼技巧”提升学习效率;其次,利用“六顶思考帽”和“10/10/10法则”优化决策过程;再次,通过“TOPIC模型”和“POA行动力”强化团队执行力;然后,运用“系统思维”和“SWOT分析”洞察复杂问题;最后,通过“刻意练习”和“KPT复盘法”实现持续精进。这些模型为职场人士提供了系统性的思考框架,帮助他们在复杂环境中游刃有余,实现职业成长与突破。
2025-05-22 10:00:00
2270
原创 SQL高频面试题:如何查询用户的累计消费金额及VIP等级?
在SQL面试中,查询用户的累计消费金额及VIP等级是一个常见问题。首先,需要从订单信息表中按用户和日期聚合每日消费金额,然后使用窗口函数按日期顺序累加金额,得到每个用户在每个下单日期的累计消费金额。接着,通过CASE WHEN语句根据累计金额动态计算VIP等级,如普通会员、青铜会员等。核心SQL代码包括预聚合、窗口函数和条件判断。面试中可能涉及的性能优化、数据清洗、数据倾斜处理等问题,可以通过分区表、数据预处理、Salting技术等方法解决。此外,设计灵活的VIP规则配置表也是加分点。总结时,应强调技术选型
2025-05-22 09:00:00
40
原创 SQL面试提问|如何统计每个用户的「最爱外卖品」?
本文详细介绍了如何使用HiveSQL统计每个用户购买次数最多的外卖品。首先,通过GROUP BY对用户和产品进行分组统计,计算每个用户购买每种产品的次数。接着,使用RANK()窗口函数对每个用户的购买次数进行排序,确保并列第一的记录都能被保留。最后,筛选出每个用户购买次数最多的产品。文章还强调了使用RANK()而非ROW_NUMBER()的原因,并提供了性能优化建议,如使用Hive分区表和预聚合。此外,文章还讨论了边界情况的处理,如用户只购买一种商品或多个商品购买次数相同的情况。最后,文章总结了面试中应对此
2025-05-21 10:00:00
20
原创 SQL面试提问:如何找出⽀付⾦额在前 20% 的用户?
本文详细解析了如何在HiveSQL中使用分位数函数和窗口函数来找出支付金额在前20%的用户。文章首先介绍了两种主要方法:使用PERCENT_RANK()窗口函数和NTILE(5)分桶技术。PERCENT_RANK()通过计算每个用户的支付金额在总支付金额中的百分比排名,筛选出排名前20%的用户;而NTILE(5)则将用户均匀分成五等份,第一份即为支付金额最高的前20%用户。文章还探讨了如何处理并列情况、用户数量不能被5整除时的分配方式,以及如何找出“中间60%”用户。最后,文章总结了两种方法的优缺点,并强调
2025-05-21 08:30:00
342
原创 解码数据语言:如何优雅的进行数仓字典建设?
文章探讨了企业构建“数据词典”的重要性及其方法论。数据词典作为业务与技术的通用语言库,能够统一数据语义,消除歧义,支撑数据治理,并加速团队协作。文章详细介绍了词根的概念及其核心价值,词根是数据语义的最小单元,通过词根词库可以实现技术字段与业务术语的统一。此外,文章还阐述了数据字典的核心维度,包括词根词库的本质、分层分类、命名规范及冲突解决机制。建设方法论部分,提出了业务调研与术语收编、标准化处理四步法及自动化工具链增强等步骤。运营推广方面,建议通过分层培训体系、激励机制和动态迭代机制实现长效治理。最后,文章
2025-05-20 17:41:54
1025
原创 企业智慧业务中台规划建设与应用全景解析
《智慧业务中台规划建设与应用总体方案》旨在解决企业流程复杂、信息不畅、系统重复开发等问题,通过构建智慧化集中支撑体系,实现全局掌控、智能决策和快速响应。方案提出以互联网技术为基础,数据驱动为核心,打造运营决策集中化、前端营销敏捷化、业务支撑集中化的一体化体系。建设目标包括提供全流程支撑、智能化业务管理、集中化订单处理及闭环风险管控。总体建设思路强调引入互联网技术,构建前台、中台、后台的支撑体系,贯通营销、生产、决策全流程。业务中台设计注重共性能力抽象和三大支撑体系(智慧决策、敏捷营销、生产集中),数据中台设
2025-05-19 16:41:57
947
原创 流量曝光归因SQL优化实战:如何将曝光事件精准关联到最近一次启动?
随着移动互联网进入存量竞争时代,精细化运营成为企业核心战略,用户行为归因分析尤为关键。启动归因作为用户生命周期分析的起点,直接影响渠道评估、广告投放优化和产品迭代策略。本文通过两种典型的归因实现方案,剖析大数据场景下的核心解决思路。方案1基于ROW_NUMBER的关联归因,通过笛卡尔积和窗口函数筛选最近启动记录,但存在笛卡尔积风险和排序性能消耗问题。方案2基于LAST_VALUE的融合归因,通过合并启动与曝光事件流,单次扫描完成计算,复杂度更低,适用于数据量大、时效要求高的场景。未来可探索Flink状态计算
2025-05-19 08:30:00
46
原创 如何为大模型编写优雅且高效的提示词?
文章摘要:本文详细介绍了如何设计有效的提示词以优化AI模型的输出。首先,明确核心目标,使用具体任务替代抽象描述,并定义任务类型和输出格式。其次,采用结构化提示词设计,包括角色设定、背景信息、核心任务和输出约束。接着,探讨了语言技巧与原则,如使用主动语态和分层指令设计。进阶策略包括思维链引导和少样本学习。迭代优化方法涉及A/B测试和反馈循环机制。最后,通过示例对比和注意事项,强调了伦理边界和版权意识的重要性。文章还提供了通用模板,建议建立个人提示词库并持续迭代优化。
2025-05-16 14:24:04
933
原创 大模型在数据分析领域的研究综述
大模型(LLMs)在业务指标拆解中的应用日益广泛,尤其在金融、零售和制造业等领域展现了显著潜力。在金融行业,大模型通过增强模式识别能力,支持高频交易和欺诈检测,提升了预测准确性和风险管理效率。零售行业中,大模型驱动的动态定价和库存管理系统帮助企业实现销售增长和利润率提升。制造业则通过大模型优化质量控制,减少废品率并提高生产效率。然而,大模型的应用仍面临透明度不足、数据隐私和技术门槛等挑战。未来,企业需加强数据治理、提升模型可解释性,并探索跨行业协作,以充分发挥大模型在业务指标拆解中的潜力,推动智能化转型。
2025-05-16 10:17:25
1171
原创 经典问题争议:数仓分层建设中,DWD、DWS、ADS哪一层最难?
在数据仓库分层建设中,DWD(明细层)、DWS(汇总层)、ADS(应用层)的难度因业务场景、团队能力和系统复杂度而异,没有绝对的“最难”。但从业务耦合度、技术复杂度和长期维护成本等维度综合来看,DWD层通常是最核心、最复杂的部分。DWD层负责数据清洗、标准化和原子指标计算,构建面向业务过程的原子表,为上层提供高质量、可复用的明细数据。其难点在于对业务理解的深度要求、数据质量治理的复杂性、ETL开发与维护的高成本以及长期维护的压力。DWS层则基于DWD层数据,按主题构建轻度聚合表,提升查询效率,难点在于维度建
2025-05-15 09:00:00
42
原创 CIO必修课:如何让老板为数据治理买单?
一场失败的提案“王总,我们需要启动数据治理项目,否则系统会越来越乱……”“先等等,这项目要投200万?能带来多少收入?”CIO张明无奈离场,老板的质疑让他哑口无言。痛点共鸣:70%的数据治理项目因“无法证明业务价值”被毙掉!核心结论不谈技术,只谈钱——用老板的思维说服老板。
2025-05-14 09:00:00
395
原创 Dify大模型参数调节技术指南:从原理到实践
本文深入探讨了大语言模型(LLM)在文本生成和对话系统等应用中的关键参数调节策略。文章首先详细解析了温度(Temperature)、TopP、TopK等核心参数的作用机制及其在不同场景下的配置建议,如知识密集型、确定性、创意生成和对话系统场景。接着,提供了参数组合的黄金公式和调整小技巧,帮助开发者在保证生成质量的同时,实现多样性的精准控制。此外,文章还介绍了调试流程、常见问题解决方案及最佳实践建议,强调了参数调节的艺术与科学结合,并建议开发者建立参数实验记录制度,通过A/B测试不断优化配置方案。最后,文章指
2025-05-14 08:30:00
806
原创 球球 vs 懂车帝数仓岗位:数据资产沉淀主要是指DWS和ADS层的表吗?
数据资产的沉淀在企业数据仓库建设中至关重要,但常被误解为仅涉及DWS(数据仓库汇总层)和ADS(应用数据服务层)的表。数据资产应具备可控制、可量化、可复用、可管理四大特征,其沉淀需覆盖从ODS(原始数据层)到ADS的全链路。ODS层虽为原始数据,但通过治理可转化为资产;DWD层作为清洗后的原子数据,是高质量数据源的基础;DWS和ADS层则通过轻度汇总和服务化,直接驱动业务决策。反方观点认为,仅聚焦DWS和ADS层会忽视基础数据的基石作用和原始数据的潜在价值,导致全链路治理缺位。因此,数据资产沉淀应兼顾价值显
2025-05-13 09:00:00
49
原创 数据资产沉淀:不仅是DWS与ADS,揭秘企业数据价值化的全链路法则
本文探讨了数据资产沉淀的完整定义与技术架构,指出数据资产不仅仅是DWS/ADS层的表,而是全链路可复用的数据资源。文章通过“四层九维”模型详细剖析了数据分层架构和治理维度,并提出了跳出DWS/ADS陷阱的三个关键动作:夯实DWD层、建立数据资产目录、以用促治。此外,文章还展望了从“分层治理”到“数据Mesh”的未来演进方向,强调数据资产沉淀是一场需要全员参与的长期马拉松。通过系统化的治理和架构设计,数据资产可以从“成本负担”进化为“战略资产”。
2025-05-13 08:30:00
1520
原创 提示工程实战指南:Google白皮书关键内容一文讲清
Google于2025年2月发布的《Prompt Engineering》白皮书,由Lee Boonstra主编,详细介绍了提示工程的核心技术、实践方法及挑战应对策略。文档涵盖了提示工程的基础理论、主流提示技术(如零样本/少样本提示、思维链、自洽性、思维树等)、输出参数配置(温度、Top-K、Top-P等)、最佳实践及生成式AI的局限性分析。文档强调通过结构化迭代、自动化工具与跨团队协作提升提示工程效率,并提供了多场景应用案例。提示工程的核心在于简洁明确的指令设计、参数优化及技术组合应用,如零样本与少样本提
2025-05-12 16:37:44
715
原创 SQL 筛选优化| LEFT SEMI JOIN 与 LEFT ANTI JOIN 高效数据筛选的利器
LEFTSEMIJOIN和LEFTANTIJOIN是SQL中两种特殊的非标准JOIN类型,主要用于大数据处理引擎如Hive和SparkSQL。LEFTSEMIJOIN用于返回左表中在右表中存在匹配的记录,而LEFTANTIJOIN则返回左表中在右表中没有匹配的记录。这两种连接类型都不返回右表的字段,并且具有去重特性,即右表的多条匹配记录不会导致左表记录重复。它们在大数据场景下具有减少数据扫描量、避免数据膨胀和加速查询的优势。LEFTSEMIJOIN适用于筛选有订单的用户等场景,而LEFTANTIJOIN适用
2025-05-12 08:30:00
54
原创 低代码时代的技术抉择:n8n 和 Dify 到底怎么选?
场景推荐工具构建自动化流程、系统集成✅ n8n开发AI应用、智能助手✅ DifyAI+自动化组合方案✅ n8n + Dify 协同项目n8nDify定位自动化流程编排AI原生应用开发强项系统集成、API调度LLM应用、提示工程技术栈推荐指数(自动化方向)⭐⭐⭐⭐⭐⭐⭐推荐指数(AI方向)⭐⭐⭐⭐⭐⭐⭐。
2025-05-09 17:11:56
1414
原创 数据治理路径之辩:从“先治后用”到“边用边治”,企业如何选择最优路径?
数据治理是企业在数智化建设中的核心挑战,主要涉及三种时序策略:先治理后使用、先用后治理和边用边治。先治理后使用强调在数据应用前建立完整的治理框架,适合高合规要求的行业,但可能响应滞后。先用后治理则优先释放数据价值,适合快速变化的业务环境,但可能累积数据质量问题。边用边治寻求动态平衡,通过持续改进实现治理与应用的同步迭代,适合复杂数据环境。技术选型决策矩阵和实施方法论提供了具体的操作指南,建议根据组织特性和业务需求选择适配方案,并通过渐进式演进路径实现治理与业务的共生演进。
2025-05-09 08:30:00
154
原创 王炸vs某互联网公司:数仓中,什么情况下需要进行数据回溯?需要注意什么?
我们更希望候选人能系统性思考问题,比如:回溯场景需分数据质量、规则变更、合规需求等类型;技术上需结合分区、增量更新、快照隔离;协作上要通知下游并清理缓存;成本上需权衡是否值得回溯老旧数据。你今天的回答偏基础,建议加强工程实践和全局视角。
2025-05-08 09:00:00
278
原创 制造模式转型下资产管理数字化转型顶层设计方案
通过IT技术与OT技术深度融合,实现设备运维海量数据的实时采集,建立设备健康值模型,利用工 业互联网平台“大脑”的数据组织、分析能力,根据设备健康状态实施不同的检修策略,通过数据驱动 检修业务的合理化、高效化,实现活起来的PDCA循环。该厂商拥有5条生产线,年产能300万平方米,面临设备利用率低(OEE 60%)、备件库存高(周转率1.2)等问题。,例如某汽车零部件厂商通过数字化改造后,设备故障率下降40%,能耗降低15%。:通过数据反馈不断优化算法模型,实现从“工具应用”到“智能决策”的跃迁。
2025-05-08 08:30:00
784
原创 闭坑记录:Hive中ROW_NUMBER()排序不稳定性分析与解决方案
这是消除Hive窗口函数计算结果不确定性的唯一根本方法。通过业务主键、时间戳、UUID等字段补充排序条件,可彻底规避分布式计算中的顺序风险。
2025-05-06 09:00:00
71
原创 SQL进阶技巧:高效处理版本号排序与序号生成
字符串处理与类型转换 • 灵活使用substrsplit分解复杂字符串。• 通过CAST确保数值比较(避免字符串按字典序排序的错误)。窗口函数的高级用法 •解决并列排名问题,生成连续序号。• 结合可实现分组排序(如按产品线独立排名)。默认值处理 • 使用COALESCE或NVL填充缺失字段,避免NULL值干扰排序。动态调整序号起点 • 通过-1+1等操作调整序号范围,适应业务需求。
2025-04-29 08:30:00
841
原创 李荣浩vs某游戏公司:数仓建设中,如果用户表频繁更新,像事实表一样细长,怎么解决?
问题本质:维度表高频更新是模型设计未能匹配业务动态性的结果,需通过数据域重构解决。阿里经验提炼:坚持“维度静态化、状态事实化”原则,以离线批处理支撑动态属性的高效管理。关键结论高频更新属性必须事实化:避免维度表承担动态数据写入压力。离线批处理是核心手段:通过每日快照平衡存储与查询性能。最佳实践属性分类:设计阶段明确区分静态属性与动态属性。自动化运维:通过调度工具(如Airflow)管理快照生成任务。监控告警:跟踪事实表的数据增长速率和快照任务执行时长。
2025-04-28 16:10:03
57
原创 增量抽取的场景下,周期快照表最新分区的数据是如何生成?
数据表:用户账户余额表(更新频率:源系统每日通过增量方式推送变更(增、删、改)目标表:每日生成全量快照分区,记录当天最终账户状态查询需求:支持按分区快速查询历史任意日期的账户余额通过本文提出的全量覆盖与ACID事务两种方案,可在Hive环境下高效生成周期快照表。实际生产中需根据集群版本、数据规模、实时性要求综合选择策略。未来随着Hive 3.x的普及和Iceberg/Hudi等表格式的集成,事务型快照表的管理将更加便捷。建议在架构设计时预留扩展能力,逐步向实时数仓演进。附录。
2025-04-28 14:22:13
744
原创 面试提问:你设计的模型是通用的吗?如何量化?| 通用模型 vs 自定义模型
数据仓库建设本质是在不确定中寻找确定性的过程。建议技术团队:建立模型健康度看板:监控指标包括需求命中率、重构频率、存储成本/查询量比设计灰度升级机制:新模型先在5%流量验证,通过A/B测试对比效果培养"标准化优先"文化:强制要求所有定制开发必须证明其无法被现有模型覆盖最终,优秀的数仓架构师应像围棋高手:在标准定式与妙手偶得间找到最佳平衡点。
2025-04-27 09:00:00
41
原创 「数仓的哲与思」:一场数据工程的思维盛宴与实战精要
如《分主题预计算》案例所示:单个业务域的预计算优化是局部理性,但多主题的无限衍生将导致存储成本超线性增长——这恰似哈耶克“自发秩序”理论在数据架构中的映射。”(某案例中,将延迟从5分钟降至5秒,并未改变运营策略,反浪费百万资源)。:《维度退化》系列揭示了反范式设计的深层逻辑——“存储冗余”本质是用空间换时间,但何时退化、退化到何种程度,需追踪到“业务查询的时空分布规律”。:康德“二律背反”的现代演绎——唯有建立“先验规范+自治空间”的弹性架构(如指标字典+动态视图),才能实现“规范下的自由”。
2025-04-26 09:00:00
1159
原创 妹爷vs快手数仓:DWS层构建好后,新来了一个需求,需要添加某个维度字段,你是怎么考虑和设计的?
DWS层的设计本质是在稳定性与灵活性间寻找平衡。最小化侵入:优先通过逻辑层解耦(视图/外键化)按需物化:高频维度预计算,长尾维度动态关联自动化兜底:用数据质量监控+元数据治理降低风险业务驱动演进:避免技术理想化设计,贴合实际查询模式最终,优秀的数仓架构应像乐高积木一样——每个模块可独立替换,但整体始终稳固可靠。
2025-04-25 08:30:00
70
原创 Dify vs RAGFlow:如何选择适合你的RAG与低代码AI平台?
随着大模型技术在企业场景的落地加速,开发者常面临工具选型难题:是否应该选择低代码平台快速搭建AI应用,还是采用垂直工具实现专业级文档处理?本文聚焦两款热门工具——Dify与RAGFlow,从技术架构、功能特性到应用场景进行全方位对比,为开发者提供选型决策依据。一、工具定位与核心差异1.1 Dify:低代码通用AI应用工厂定位:面向非技术用户的AI应用开发平台,支持快速构建对话机器人、内容生成、数据分析等场景。核心优势:• 低代码/无代码交互:通过可视化界面拖拽编排工作流,无需编码即可调用大模型能力。
2025-04-25 08:00:00
1071
原创 大语言模型生成控制参数详解:温度、Top-K与Top-P
温度、Top-K和Top-P的灵活组合,为LLM生成结果的可控性提供了多层次解决方案。开发者需深入理解各参数的数学本质,结合实际场景需求,通过系统化实验找到最佳配置。随着自适应参数调整技术的发展,未来或将实现更智能的上下文感知生成策略。
2025-04-23 09:00:00
1094
原创 智能体应用现状、挑战及发展路径综述
智能体(AI Agent)作为人工智能技术的重要载体,正逐步渗透至生产与生活的各个领域,成为推动产业升级和社会变革的核心驱动力。中国电子信息产业发展研究院发布的《智能体应用现状挑战及建议》报告系统梳理了智能体的技术框架、发展现状、全球动向及未来挑战,并提出了针对性的发展建议。本文基于该报告内容,结合学术视角,从技术特征、产业生态、区域策略、瓶颈问题及优化路径等方面展开综述,以期为智能体技术的深化研究与应用提供参考。
2025-04-23 08:15:00
1079
原创 SQL 中 GROUPING SETS 结合多个 COUNT(DISTINCT) 的数据膨胀问题与优化实践
在中,数据膨胀指中间计算结果(如哈希表、临时数据)因分组组合和去重操作的叠加效应,导致数据量远超原始输入的现象。原始数据量:1 亿条订单记录。膨胀后中间数据量:可能达到数十亿条。在 SQL 中使用结合多个时,数据膨胀问题的本质是组合爆炸与去重成本叠加的共同作用。通过预聚合、分步计算或近似计数等方案,可有效缓解性能瓶颈。实际场景中需结合数据规模、精确性要求和计算资源综合权衡,选择最优策略。
2025-04-22 09:00:00
195
原创 腾讯云-DeepSeek+企业知识库:大模型员工助手,助力企业人效提升和业务增长
核心内容概述报告围绕腾讯云的DeepSeek+企业知识库解决方案,展示了如何通过大模型技术(如RAG、WorkFlow、Agent模式)构建智能员工助手,助力企业提升人效、优化业务流程并实现业务增长。重点覆盖知识管理、复杂任务处理、多模态数据解析等场景,结合实际客户案例验证产品价值。产品核心功能与模式三大应用模式标准模式(RAG):快速部署知识问答系统,适用于严肃问答场景(如企业规章制度查询)。工作流模式:通过可视化拖拽编排复杂业务流程(如保险建议书生成),支持零代码开发。Agent模式。
2025-04-21 08:00:00
1178
原创 数仓多源异构数据整合策略:融合与分离的实践指南
面对多源异构数据整合的复杂挑战,企业需采取"分而治之,合而为一"的策略。通过建立清晰的决策框架、设计灵活的技术方案、实施严格的质量控制,最终实现数据资产的全局可管、可控、可用。未来随着Data Mesh等新范式的普及,数据治理将进入更智能、更自治的新阶段。
2025-04-20 08:30:00
1162
夸克网盘自动签到脚本-支持多账号
2025-05-23
### 2025工业4.0状况报告:八大新兴技术
2025-05-22
【数据资产管理领域】AI赋能数据资产管理革新:多领域探索实践与未来展望
2025-05-22
### 某大学核心机房建设项目技术方案总结
2025-05-22
### 文章总结:《2025企业智能化转型2.0时代指南.pdf》
2025-05-22
【人工智能领域】DeepSeek多场景应用指南:从基础入门到高级优化技术详解DeepSeek这一先进
2025-05-22
品牌营销基于ChatGPT的74个营销场景提问模板:从信息搜集到内容生成的全流程指南
2025-05-20
【DeepSeek实操指南】公文写作与材料处理自动化:涵盖口述稿转化、政策对比及数据可视化等应用场景
2025-05-20
【人工智能领域】麦肯锡2025年重点报告:AI如何重塑组织架构与价值创造-大型企业引领通用AI部署与风险管理
2025-05-20
### 2024年中国AI基础数据服务行业研究报告综述、行业概述
2025-05-20
AI大模型训练大规模智算中心建设方案(239页+WORD).docx
2025-05-20
### AI代码平台及产品发展简报总结
2025-05-20
### 【人工智能领域】Manus AI智能体:AGI发展新范式的技术原理与应用实践
2025-05-20
【人工智能领域】Agent与MCP技术发展解析:构建自主智能体和多智能体系统的实践指南了AI Agents和
2025-05-20
玩转Dify:大模型应用汇总.zip
2025-05-19
01-《DeepSeek掘金》随书资源-下载说明V1.0.pdf【DeepSeek掘金】随书资源及企业内训模块解析:涵盖CodeEasy软件、提示词、PPT及AI办公培训
2025-05-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人