自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

石榴姐yyds

数据开发与数据挖掘

  • 博客(701)
  • 资源 (959)
  • 收藏
  • 关注

原创 本月累计 vs 上月累计环比计算 | SQL解决方案

摘要: 本文详细介绍了基于SQL的日环比分析方法,通过滚动累计值计算实现本月与上月同期的精细化对比。核心技术包括:1) 使用窗口函数计算每日累计值;2) 跨月日期精准对齐处理;3) 特殊场景解决方案(月初、月末、闰年等)。方案采用WITH子句构建本月/上月数据集,通过LEFT JOIN和COALESCE处理日期差异,并加入NULLIF安全除零机制。文章还涵盖执行优化技巧和典型业务场景应用,为生产量、销售额等指标的周期性分析提供了一套完整的高效解决方案。

2025-06-13 10:00:00 358

原创 京东金融面试提问:数仓中共性指标如何做下沉?请谈谈你的理解

共性指标是指那些在多个业务场景、报表、分析模型中都会被使用的指标,例如:用户活跃数(DAU/MAU)订单总数、订单金额转化率(点击率、下单率等)留存率新增用户数口径统一性强计算逻辑稳定使用频次高跨部门/业务线共享共性指标下沉是构建高效、一致、可维护数据仓库的核心实践。其本质是数据模型设计中“公共性”原则的体现,是“数据资产的复用与治理”,其核心目标是实现口径统一、逻辑复用、性能优化、易于维护。它是数仓走向成熟的重要标志之一。

2025-06-13 09:00:00 6

原创 数仓的“拆“与“不拆“:一场关于用户基础信息表的哲学辩论 | 基于网友提问

在数据仓库设计中,是否拆分用户基础信息表需要权衡业务场景。单表设计查询便捷、ETL简单,适合业务稳定、查询模式重合的场景;拆分设计业务边界清晰、扩展灵活,适用于高频独立访问、字段膨胀风险的场景。折中方案可将入职时间保留在基础表,离职时间拆分到事件表,并采用星型模型实现维度与事实表分离。核心原则是按业务过程建模,拆分能提升数仓的可维护性、性能和扩展性,是应对复杂业务需求的更优选择。

2025-06-13 09:00:00 420

原创 网友提问:数仓ADS层有事实表吗?|一个关于数据仓库分层架构的常见疑问

ADS 层的主要目的是提供面向最终应用的、高度聚合或轻度汇总的数据,通常以。

2025-06-12 11:00:00 714

原创 京东数仓面试提问:数仓中应用层怎么设计?应用层和汇总层的区别是什么?

特征汇总层 (DWS) -应用层 (ADS) -应用层 (ADS) -核心目标提供用户日粒度按类目订单行为的通用基础数据满足每日订单看板的最终展示需求满足风控模型对用户近7天订单明细行为特征的需求数据来源主要来自 DWD (订单, 用户, 商品) + DIM (类目)主要来自 DWS (跨主题:DWD (订单, 用户, 地址, 登录, 商品) +DWS(历史次数) + DIM (类目)模型特点星型/宽表,轻度汇总(用户+日+类目),轻度去规范化高度聚合宽表 (日+类目),极度去规范化,指标定制。

2025-06-11 09:30:00 47

原创 毛台 vs 某互联网公司:如何处理多值维度(多对多关系)?

在电商系统中,一个订单可能包含多个商品,每个商品又可能出现在多个订单中;在社交网络里,用户可以拥有多个标签,而每个标签又关联着无数用户。这种复杂的交互关系催生了数据库设计中的核心命题——多对多关系的处理艺术。处理多值维度(多对多关系)是数据仓库维度建模中的核心挑战。桥接表是解决这个问题的标准方案。本文将深入探讨桥接表的设计哲学与实践智慧。以下为毛台面试某互联网公司时被问到该问题时的模拟场景,让我们一起看看毛台面试中的遭遇,以及事后我们从毛台惨败的面试中应汲取什么样的经验。

2025-06-09 09:00:00 48

原创 Hive窗口函数RANGE BETWEEN详解:用法、场景与案例(附真实业务案例)

Hive窗口函数RANGEBETWEEN深度解析 摘要: 本文详细介绍了Hive中RANGEBETWEEN窗口函数的原理与应用。该函数通过基于ORDERBY列的值范围(而非物理行位置)定义窗口边界,特别适用于时间序列和数值区间分析。文章通过销售数据分析案例,展示了计算N天内累计销售额、金额范围内订单统计等典型场景的应用方法。重点对比了RANGEBETWEEN与ROWSBETWEEN的本质区别:前者处理逻辑数值范围,后者处理物理行偏移。最后结合金融风控实际案例,演示了如何在用户风险评分和持仓分析中实现精准的时

2025-06-06 10:00:00 44

原创 从经验到精准:制造业生产计划可视化决策全景图

制造业生产计划的数据驱动转型已成为现代企业提升运营效率的关键。文章系统阐述了三大核心内容:一、产能利用率、设备效率等核心指标,二、趋势分析、瓶颈识别等常用方法,三、数据质量、跨部门协作等应用要点。通过科学数据分析,企业可实现从经验管理到精准决策的转变,优化资源配置、提高生产效率并增强市场竞争力。全文强调数据分析能力已成为生产计划人员的必备技能,为制造业数字化转型提供了切实可行的实施框架。

2025-06-06 09:00:00 1965

原创 数仓面试提问:在资源(计算、存储、人力)受限的情况下,如何优先处理需求并保证核心交付?

在资源受限环境下高效保障核心交付的系统化方法 本文提出了一套完整的资源管理方法论,核心包括: 明确界定核心交付范围(业务价值、基础依赖、合规安全、客户承诺) 建立量化评估体系(RICE评分、WSJF经济优先级、MoSCoW分类、KANO模型) 实施透明沟通机制(数据可视化、机会成本分析、备选方案提供) 医疗AI项目实战案例:通过资源隔离(GPU专用)、需求量化排序(审计日志2000分>结节识别200分)和严格范围控制,5个月完成认证并超预期达成96.2%敏感度指标 关键经验:资源受限时,精准的价值判断比资源

2025-06-06 08:30:00 105

原创 数据分析师如何构建自己的底层逻辑?

摘要:构建数据分析师的底层逻辑需要系统性培养知识基础、思维模式和实战能力。核心包括:1)夯实业务知识、数据原理和工具方法;2)培养问题导向、批判性思维和结构化分析能力;3)通过项目实践锤炼数据敏感度和业务直觉;4)加强跨部门协作与行业交流。关键在于将分析方法内化为本能,从数据中提炼有价值的业务洞见并推动决策。这是一个需要持续学习、实践和复盘迭代的长期过程,最终实现分析能力和业务价值的螺旋式提升。

2025-06-05 09:15:00 1573

原创 SQL面试实战:货拉拉司机回本天数分析

本文通过货拉拉司机会员策略案例,详细解析如何用SQL解决时间序列累计计算问题。针对平台经济中评估司机回本周期的需求,提出四步解决方案:1)计算订单利润;2)关联缴费记录并窗口函数累计利润;3)确定首次回本日期;4)聚合平均回本天数。重点展示了窗口函数PARTITION BY和ORDER BY的组合应用,以及业务逻辑到SQL的转换过程。该方案可分析不同城市、套餐的回本差异,为优化会员策略提供数据支持,同时锻炼数据分析师处理复杂业务场景的能力,是数据分析面试中考察SQL和业务理解的典型案例。

2025-06-05 09:00:00 45

原创 面试提问:数仓建模与数据分析之间到底是什么关系?

决定数据如何组织(星型、雪花型、宽表、范式化等)。

2025-06-04 09:00:00 1006

原创 DeepSeek技术溯源及前沿探索(PPT 浙江大学·2025)

以下是《DeepSeek技术溯源及前沿探索》PPT的核心内容总结(基于浙江大学朱强教授2025年报告):系统梳理了DeepSeek的技术发展脉络及其在AI领域的创新突破,深入剖析了DeepSeek技术的发展历程与未来方向。报告指出,DeepSeek在大语言模型领域取得重大突破,通过技术创新和系统优化,大幅提升了模型的推理能力和应用范围。总结:该PPT系统梳理了DeepSeek从Transformer基座到MoE架构的创新路径,突出其在效率、多模态及开源生态的突破,同时直面技术局限与全球化挑战。

2025-06-04 08:30:00 530

原创 破壁之道:如何用一致性维度打通企业数据仓库孤岛?

《一致性维度:打通企业数据孤岛的关键》 本文揭示了企业数据系统中"报表打架"的根本原因——数据孤岛现象,并提出了基于一致性维度的解决方案。通过零售企业案例,阐释了数据孤岛带来的四大典型问题:客户定义不统一、跨部门分析困难、商品口径不一致及时间统计口径差异。 一致性维度的核心在于建立统一的业务实体标准(客户、产品、时间等),包含四大要素:统一代理键、属性定义、粒度和数据管道。其实施路径包括:识别关键共享维度、制定统一标准、建立中心化管理流程、分发维度数据以及处理特殊场景。成功案例显示,该方

2025-06-03 09:00:00 769

原创 王大锤vs某互联网公司:业务过程与粒度如何设计?

业务过程是。

2025-06-03 09:00:00 60

原创 SQL面试提问 :如何计算每个月的订单数量和总金额以及与上个月相比的环比增长率

【SQL面试高频题解析:环比计算的双解法对比】 摘要:87%的SQL面试都会考察的环比计算题,常导致候选人出现嵌套查询爆炸、除零错误等问题。本文对比两种核心解法:1)窗口函数法(推荐)使用LAG+NULLIF处理环比,性能优越且代码简洁;2)自连接法需处理复杂日期逻辑,性能较差。关键避坑点包括:用NULLIF防御除零、COALESCE处理首月空值、DECIMAL锁定精度。窗口函数在大数据场景下性能提升显著(小时级→分钟级),面试时应强调其MapReduce优化原理及业务异常处理逻辑(如促销/故障导致的暴涨)

2025-05-30 09:00:00 54 3

原创 蘑菇头vs某短视频公司:如何治理同名不同义的指标?

摘要:本文深入剖析了数据仓库中"同名不同义"指标问题的根源与危害,提出了系统性的治理策略。"同名不同义"指同一指标名称在不同业务场景中存在计算逻辑或口径差异,导致决策失误、信任危机等严重后果。其成因包括组织孤岛、流程缺失、技术异构等因素。治理方案需从命名规范、指标字典、生命周期管理等多维度入手,结合技术手段(如语义层、元数据管理)和组织变革(如数据治理委员会)。文章还提供了面试满分回答框架,强调要通过具体案例、技术细节和业务价值的有机结合来展现专业能力。有效的指标治理

2025-05-29 10:00:00 44

原创 SQL面试提问:如何计算用户注册到首次下单的时间间隔分布?

本文介绍了使用SQL分析用户从注册到首次下单时间间隔的方法与价值。通过分层CTE结构实现模块化开发,包括提取首次下单时间、计算转化周期、分组统计等步骤。文章详细解析了SQL实现方案,包括时间标准化处理、区间分组策略和百分比计算等技术要点,并给出生产环境优化建议(分区裁剪、数据质量保障等)。业务应用示例展示了如何通过转化周期分布指导运营决策,如针对不同区间用户采取差异化策略。最后提供了面试回答的结构化模板(STAR-L法),强调技术实现与业务理解的结合,包括性能优化、结果解读和扩展思考等维度。该分析能有效评估

2025-05-29 09:00:00 40

原创 智慧财务系统:企业数字化转型的核心引擎

本文提出了一套完整的智慧财务系统建设方案,重点阐述了财务共享服务中心的实施路径。方案从战略价值、系统设计到实施保障进行全方位规划:智慧财务系统通过数据整合与智能分析支撑战略决策,强化集团管控并提升运营效率;财务共享中心采取分层架构设计,结合成本效益与服务导向原则优化流程;系统采用微服务架构与智能技术实现自动化处理,并通过分阶段策略保障落地。该方案为企业数字化转型提供了从价值守护到价值创造的实现路径,最终形成以数据驱动为核心的财务管理新范式。

2025-05-28 13:00:00 2066

原创 大模型提示词工程实践

摘要:本文对比分析了LangGPT格式化与非格式化提示词在不同任务中的表现。LangGPT格式通过明确角色设定和结构化指令,提高了模型响应的准确性和相关性,特别适合公文写作等规范化任务;非格式化提示则更具灵活性,适用于创意性任务如剧本创作。测试结果显示,结构化提示显著提升用户体验和输出质量,但可能限制创意发挥。建议根据任务类型选择合适的提示方式:规范任务用LangGPT格式,创意任务可保留灵活性。

2025-05-28 08:30:00 725

原创 大模型应用:开发移动端页面个人中心页面提示词

3、界面要符合现代APP的设计规范,使用户在使用APP时感到舒适、流畅、自然;设计一个穿搭搭配的APP,通过调用DeepSeek的api,结合天气、温度以及流行时尚信息,给用户推荐每日的穿着搭配建议方案,然后使用HTML和Tailwind CSS创建UI/UX参考图。请提供完整的html代码(页面结构,index.html)、css文件代码(样式,styles.css)和js文件代码(页面交互逻辑,可先提供空白框架,主要实现页面数据先采用mock方式和基本交互逻辑预留,script.js)。

2025-05-27 22:44:10 662

原创 数仓面试提问:如何将业务规划转化为数仓规划?

本文系统阐述了将业务规划转化为数仓规划的方法论,强调业务目标与数据架构的映射关系。主要内容包括:1.核心步骤:通过业务需求深度解析、指标体系构建、主题域划分等环节实现业务-数据转换;2.实施方法:提出需求锚定、架构设计、模型落地三阶段方法论,并详细说明各阶段输出物;3.电商案例:完整展示从"提升复购率"业务目标到数仓模型设计的技术落地路径;4.面试模板:提供结构化回答框架,突出业务理解、技术实现和成果量化能力。文章为数据仓库工程师提供了从业务规划到技术落地的完整解决方案。

2025-05-27 09:30:00 313

原创 SQL面试提问:如何计算销售KPI达成进度?

【摘要】文章模拟了HiveSQL面试场景,针对水果订单表的KPI统计需求,提出两种解决方案:1)窗口函数实现按日累计销售进度;2)CTE+行转列展示分类进度。详细拆解了SQL编写要点,包括日期处理、累计计算、行转列技巧和性能优化。同时总结了面试高频考点:窗口函数、动态KPI适配、NULL值处理等,并提供了进阶优化思路(分区表、列式存储)和应变策略(动态SQL生成)。最后给出面试建议:主动展示技术深度,明确需求边界。

2025-05-26 10:00:00 69

原创 AI赋能企业转型:从诊断到落地的实践路径

某物流企业通过上述方法论,用18个月实现AI在运输调度、仓储管理等6个场景的落地,整体运营成本降低22%,客户满意度提升19个百分点。正如麦肯锡研究指出:"AI转型成功的企业,80%的时间都花在需求定义和流程重构上,而非技术本身。后来通过全流程诊断发现,生产线上70%的次品源于设备校准误差,最终通过AI预测性维护系统将设备故障率降低40%,这才是真正触及本质的解决方案。例如某零售企业发现库存周转率低下,通过连续追问发现根本原因是"促销策略与区域需求错配",而非表面的"物流效率问题"。

2025-05-26 08:30:00 1333

原创 淘天数仓面试提问:如何建立与业务方沟通机制 ? 给出建议?

本文针对数仓开发中与业务方的沟通机制提出系统化建议。首先分析面试中常见问题,指出候选人回答的不足(如缺乏体系化、业务理解不深等)。随后从需求阶段、开发阶段、交付后协同三个维度,详细阐述沟通机制建设方案:包括需求评审标准化、敏捷交付模式、数据资产门户建设等。最后提供面试回答模板,强调用"痛点-解法-价值"三段式+量化案例展示专业能力。全文突出数据驱动思维,强调通过流程优化降低沟通成本,实现技术与业务的双向价值对齐。

2025-05-25 23:10:57 39

原创 SQL面试提问:如何找出每月GMV环比下降超20%的城市?

要找出每个城市每月GMV环比下降超过20%的情况,可以按照以下步骤进行:首先,按城市和月份聚合GMV数据,使用date_format提取年月并按城市分组求和。接着,通过窗口函数LAG获取同一城市上月的GMV数据。然后,计算环比变化率,并筛选出下降超过20%的记录。在处理过程中,需注意日期格式的兼容性、除零错误以及月份缺失问题。优化查询性能的方法包括增加分区字段或预聚合数据。此外,还需考虑如何处理上月GMV为0的情况,以及如何确保跨年排序的正确性。最终结果可用于业务改进,如排查异常原因并建立预警机制。

2025-05-23 09:00:00 33

原创 如何提升自己的职场思维?| 10个模型助你成为高效能人士

本文介绍了10个经过验证的思维模型,旨在帮助职场人士提升学习力、决策力、执行力和系统性思维。首先,通过“学习金字塔”和“费曼技巧”提升学习效率;其次,利用“六顶思考帽”和“10/10/10法则”优化决策过程;再次,通过“TOPIC模型”和“POA行动力”强化团队执行力;然后,运用“系统思维”和“SWOT分析”洞察复杂问题;最后,通过“刻意练习”和“KPT复盘法”实现持续精进。这些模型为职场人士提供了系统性的思考框架,帮助他们在复杂环境中游刃有余,实现职业成长与突破。

2025-05-22 10:00:00 2640

原创 SQL高频面试题:如何查询用户的累计消费金额及VIP等级?

在SQL面试中,查询用户的累计消费金额及VIP等级是一个常见问题。首先,需要从订单信息表中按用户和日期聚合每日消费金额,然后使用窗口函数按日期顺序累加金额,得到每个用户在每个下单日期的累计消费金额。接着,通过CASE WHEN语句根据累计金额动态计算VIP等级,如普通会员、青铜会员等。核心SQL代码包括预聚合、窗口函数和条件判断。面试中可能涉及的性能优化、数据清洗、数据倾斜处理等问题,可以通过分区表、数据预处理、Salting技术等方法解决。此外,设计灵活的VIP规则配置表也是加分点。总结时,应强调技术选型

2025-05-22 09:00:00 59

原创 SQL面试提问|如何统计每个用户的「最爱外卖品」?

本文详细介绍了如何使用HiveSQL统计每个用户购买次数最多的外卖品。首先,通过GROUP BY对用户和产品进行分组统计,计算每个用户购买每种产品的次数。接着,使用RANK()窗口函数对每个用户的购买次数进行排序,确保并列第一的记录都能被保留。最后,筛选出每个用户购买次数最多的产品。文章还强调了使用RANK()而非ROW_NUMBER()的原因,并提供了性能优化建议,如使用Hive分区表和预聚合。此外,文章还讨论了边界情况的处理,如用户只购买一种商品或多个商品购买次数相同的情况。最后,文章总结了面试中应对此

2025-05-21 10:00:00 37

原创 SQL面试提问:如何找出⽀付⾦额在前 20% 的用户?

本文详细解析了如何在HiveSQL中使用分位数函数和窗口函数来找出支付金额在前20%的用户。文章首先介绍了两种主要方法:使用PERCENT_RANK()窗口函数和NTILE(5)分桶技术。PERCENT_RANK()通过计算每个用户的支付金额在总支付金额中的百分比排名,筛选出排名前20%的用户;而NTILE(5)则将用户均匀分成五等份,第一份即为支付金额最高的前20%用户。文章还探讨了如何处理并列情况、用户数量不能被5整除时的分配方式,以及如何找出“中间60%”用户。最后,文章总结了两种方法的优缺点,并强调

2025-05-21 08:30:00 360

原创 解码数据语言:如何优雅的进行数仓字典建设?

文章探讨了企业构建“数据词典”的重要性及其方法论。数据词典作为业务与技术的通用语言库,能够统一数据语义,消除歧义,支撑数据治理,并加速团队协作。文章详细介绍了词根的概念及其核心价值,词根是数据语义的最小单元,通过词根词库可以实现技术字段与业务术语的统一。此外,文章还阐述了数据字典的核心维度,包括词根词库的本质、分层分类、命名规范及冲突解决机制。建设方法论部分,提出了业务调研与术语收编、标准化处理四步法及自动化工具链增强等步骤。运营推广方面,建议通过分层培训体系、激励机制和动态迭代机制实现长效治理。最后,文章

2025-05-20 17:41:54 1074

原创 企业智慧业务中台规划建设与应用全景解析

《智慧业务中台规划建设与应用总体方案》旨在解决企业流程复杂、信息不畅、系统重复开发等问题,通过构建智慧化集中支撑体系,实现全局掌控、智能决策和快速响应。方案提出以互联网技术为基础,数据驱动为核心,打造运营决策集中化、前端营销敏捷化、业务支撑集中化的一体化体系。建设目标包括提供全流程支撑、智能化业务管理、集中化订单处理及闭环风险管控。总体建设思路强调引入互联网技术,构建前台、中台、后台的支撑体系,贯通营销、生产、决策全流程。业务中台设计注重共性能力抽象和三大支撑体系(智慧决策、敏捷营销、生产集中),数据中台设

2025-05-19 16:41:57 967

原创 流量曝光归因SQL优化实战:如何将曝光事件精准关联到最近一次启动?

随着移动互联网进入存量竞争时代,精细化运营成为企业核心战略,用户行为归因分析尤为关键。启动归因作为用户生命周期分析的起点,直接影响渠道评估、广告投放优化和产品迭代策略。本文通过两种典型的归因实现方案,剖析大数据场景下的核心解决思路。方案1基于ROW_NUMBER的关联归因,通过笛卡尔积和窗口函数筛选最近启动记录,但存在笛卡尔积风险和排序性能消耗问题。方案2基于LAST_VALUE的融合归因,通过合并启动与曝光事件流,单次扫描完成计算,复杂度更低,适用于数据量大、时效要求高的场景。未来可探索Flink状态计算

2025-05-19 08:30:00 73

原创 如何为大模型编写优雅且高效的提示词?

文章摘要:本文详细介绍了如何设计有效的提示词以优化AI模型的输出。首先,明确核心目标,使用具体任务替代抽象描述,并定义任务类型和输出格式。其次,采用结构化提示词设计,包括角色设定、背景信息、核心任务和输出约束。接着,探讨了语言技巧与原则,如使用主动语态和分层指令设计。进阶策略包括思维链引导和少样本学习。迭代优化方法涉及A/B测试和反馈循环机制。最后,通过示例对比和注意事项,强调了伦理边界和版权意识的重要性。文章还提供了通用模板,建议建立个人提示词库并持续迭代优化。

2025-05-16 14:24:04 958

原创 大模型在数据分析领域的研究综述

大模型(LLMs)在业务指标拆解中的应用日益广泛,尤其在金融、零售和制造业等领域展现了显著潜力。在金融行业,大模型通过增强模式识别能力,支持高频交易和欺诈检测,提升了预测准确性和风险管理效率。零售行业中,大模型驱动的动态定价和库存管理系统帮助企业实现销售增长和利润率提升。制造业则通过大模型优化质量控制,减少废品率并提高生产效率。然而,大模型的应用仍面临透明度不足、数据隐私和技术门槛等挑战。未来,企业需加强数据治理、提升模型可解释性,并探索跨行业协作,以充分发挥大模型在业务指标拆解中的潜力,推动智能化转型。

2025-05-16 10:17:25 1237

原创 经典问题争议:数仓分层建设中,DWD、DWS、ADS哪一层最难?

在数据仓库分层建设中,DWD(明细层)、DWS(汇总层)、ADS(应用层)的难度因业务场景、团队能力和系统复杂度而异,没有绝对的“最难”。但从业务耦合度、技术复杂度和长期维护成本等维度综合来看,DWD层通常是最核心、最复杂的部分。DWD层负责数据清洗、标准化和原子指标计算,构建面向业务过程的原子表,为上层提供高质量、可复用的明细数据。其难点在于对业务理解的深度要求、数据质量治理的复杂性、ETL开发与维护的高成本以及长期维护的压力。DWS层则基于DWD层数据,按主题构建轻度聚合表,提升查询效率,难点在于维度建

2025-05-15 09:00:00 63

原创 CIO必修课:如何让老板为数据治理买单?

一场失败的提案“王总,我们需要启动数据治理项目,否则系统会越来越乱……”“先等等,这项目要投200万?能带来多少收入?”CIO张明无奈离场,老板的质疑让他哑口无言。痛点共鸣:70%的数据治理项目因“无法证明业务价值”被毙掉!核心结论不谈技术,只谈钱——用老板的思维说服老板。

2025-05-14 09:00:00 405

原创 Dify大模型参数调节技术指南:从原理到实践

本文深入探讨了大语言模型(LLM)在文本生成和对话系统等应用中的关键参数调节策略。文章首先详细解析了温度(Temperature)、TopP、TopK等核心参数的作用机制及其在不同场景下的配置建议,如知识密集型、确定性、创意生成和对话系统场景。接着,提供了参数组合的黄金公式和调整小技巧,帮助开发者在保证生成质量的同时,实现多样性的精准控制。此外,文章还介绍了调试流程、常见问题解决方案及最佳实践建议,强调了参数调节的艺术与科学结合,并建议开发者建立参数实验记录制度,通过A/B测试不断优化配置方案。最后,文章指

2025-05-14 08:30:00 845

原创 球球 vs 懂车帝数仓岗位:数据资产沉淀主要是指DWS和ADS层的表吗?

数据资产的沉淀在企业数据仓库建设中至关重要,但常被误解为仅涉及DWS(数据仓库汇总层)和ADS(应用数据服务层)的表。数据资产应具备可控制、可量化、可复用、可管理四大特征,其沉淀需覆盖从ODS(原始数据层)到ADS的全链路。ODS层虽为原始数据,但通过治理可转化为资产;DWD层作为清洗后的原子数据,是高质量数据源的基础;DWS和ADS层则通过轻度汇总和服务化,直接驱动业务决策。反方观点认为,仅聚焦DWS和ADS层会忽视基础数据的基石作用和原始数据的潜在价值,导致全链路治理缺位。因此,数据资产沉淀应兼顾价值显

2025-05-13 09:00:00 64

原创 数据资产沉淀:不仅是DWS与ADS,揭秘企业数据价值化的全链路法则

本文探讨了数据资产沉淀的完整定义与技术架构,指出数据资产不仅仅是DWS/ADS层的表,而是全链路可复用的数据资源。文章通过“四层九维”模型详细剖析了数据分层架构和治理维度,并提出了跳出DWS/ADS陷阱的三个关键动作:夯实DWD层、建立数据资产目录、以用促治。此外,文章还展望了从“分层治理”到“数据Mesh”的未来演进方向,强调数据资产沉淀是一场需要全员参与的长期马拉松。通过系统化的治理和架构设计,数据资产可以从“成本负担”进化为“战略资产”。

2025-05-13 08:30:00 1574

数据既要保护又要利用.docx### 【数据安全与利用】数据既要保护又要利用:构建数据流通与安全基础设施、背景与政策

数据既要保护又要利用.docx内容概要:本文围绕“数据既要保护又要利用”的主题,探讨了数据要素作为生产要素的重要性及其在推动新质生产力发展中的作用。文章首先介绍了党和国家对数据要素发展的高度重视,以及相关政策文件的出台,如《关于构建数据基础制度更好发挥数据要素作用的意见》等。随后,详细阐述了数据基础设施的定位与范畴,强调其在网络、算力等设施支持下的重要作用,旨在促进数据的汇聚、处理、流通、应用、运营和安全保障。文中还介绍了安恒信息的五大特色产品和服务,包括符合国家标准的产品体系、提供整体解决方案、掌握隐私保护计算的核心技术、多种形态的连接器和智能化的可信数据空间。此外,文章展示了多个应用场景,如数据可信流通基础设施、城市可信数据空间等,并深入探讨了数据中心、办公网、大模型、跨境数据和数据安全监管等五个典型场景下的安全挑战与解决方案。 适合人群:从事数据管理、网络安全、信息技术等领域的工作人士,尤其是对数据要素发展和数据安全感兴趣的从业者。 使用场景及目标:①了解数据要素在国家战略中的地位和发展方向;②掌握数据基础设施的建设思路和技术实现;③学习安恒信息提供的数据保护和利用的具体方案;④借鉴实际案例,提升数据安全管

2025-06-02

【数据仓库建模】解决同名不同义指标难题的系统性治理方案:从数据模型设计到指标平台建设了企业在数据仓库

内容概要:本文从数据仓库建模的视角,系统性地探讨了解决“同名不同义”指标问题的最佳实践。文章首先分析了该问题的背景及其对企业决策和业务协同的影响,指出其为数据价值发挥的隐形杀手。接着提出了四大核心策略:统一指标定义、优化数据模型、强化元数据管理和规范指标生命周期管理。通过建立标准化的命名、口径、计算逻辑和数据来源,确保指标的一致性和准确性;优化数据模型以支持统一的指标计算;通过元数据管理提升透明度,实现血缘追溯;并规范从创建到下线的全流程管理。此外,还介绍了指标平台建设和数据质量控制的技术实现,并通过两个实际案例展示了具体的应用效果。最后强调了实施路径、要点和持续运营的重要性。 适合人群:企业数据管理人员、数据仓库工程师、数据分析师等关注数据质量和数据治理的专业人士。 使用场景及目标:①帮助企业识别和解决数据仓库中“同名不同义”的指标问题;②指导企业构建系统性的指标治理体系,提高数据的一致性和可信度;③通过优化数据模型和元数据管理,支持更准确的业务决策和跨部门协作。 其他说明:指标治理是一个长期的系统性工程,需要高层支持、跨部门协作和技术工具的支持。文章强调了在实施过程中要循序渐进,重视元数据管理,平衡规范性和灵活性,并持续关注数据质量。未来,智能化技术和更广泛的数据治理框架将进一步助力指标治理的发展。

2025-05-28

### 【企业数字化与人工智能】2025企业数字与人工智能就绪度报告:战略协同、持续改进与技术投资的关键作用

内容概要:该报告由Thoughtworks发布,基于对全球1000名高级决策者的调研,评估了企业在数字化和人工智能准备方面的进展。报告将企业分为四类:领导者、强劲表现者、新兴玩家和晚期采用者。领导者(17%)在五个关键领域(数字化产品、平台和服务、企业现代化、技术管理、数据现代化、人工智能规模化)中表现出色,通过持续改进和技术投资获得显著回报。报告指出,战略的协同执行、持续改进和现实的自我认知是成功的关键。许多企业对其数字化和AI准备状态存在认知偏差,这可能导致投资错位和错失机会。报告还强调了持续技术现代化和将AI与业务目标紧密结合的重要性,以实现更高的投资回报率和长期竞争力。 适用人群:企业高级管理层、技术决策者、数字化转型负责人。 使用场景及目标:①帮助企业评估其数字化和AI准备状态,识别改进领域;②为制定协同一致的技术战略提供指导;③推动持续改进,优化技术投资,提升企业竞争力。 其他说明:报告提供了多个真实案例,展示了如何通过协同技术战略、持续改进和明确的AI部署路径实现显著的业务价值。此外,报告强调了定期评估和调整技术战略的重要性,以确保与市场变化同步,并最大化技术投资的回报。

2025-06-03

工单系统咨询表单反馈助手.yml

工单系统咨询表单反馈助手.yml Dify对话界面中的表单功能核心在于实现用户与后台数据库的高效数据交互,其核心特性可总结为以下三点: ​​智能填充机制​​ 系统能自动识别用户提问内容,将关键信息(如反馈问题、需求描述等)智能映射到表单对应字段,减少用户重复输入。 ​​双向可追溯交互​​ 每个表单提交生成唯一事务ID,用户端可通过该ID在「历史记录」模块中实时调取已提交数据,并支持差分显示修改记录。后台则通过该ID建立用户行为追踪链路,便于异常数据回溯分析。

2025-05-29

数据安全行业最佳实践.docx

数据安全行业最佳实践.docx

2025-06-02

Dify智能体:电费单识别.yml

Dify智能体:电费单识别.yml

2025-05-28

Dify智能体:SQL生成Echart图表.yml

Dify智能体:SQL生成Echart图表.yml

2025-05-28

NL2SQL市场发展分析及未来趋势.pptx

NL2SQL市场发展分析及未来趋势.pptx

2025-05-27

【人工智能领域】基于Transformer的DeepSeek技术演进与前沿探索:大型语言模型及新一代智能体的设计与应用

内容概要:本文介绍了浙江大学计算机科学与技术学院关于DeepSeek技术的研究成果及其在人工智能领域的前沿探索。文章首先回顾了语言模型的发展历程,从早期的N-gram模型到现代的Transformer架构,强调了Transformer在自注意力机制方面的创新。接着,文章详细阐述了DeepSeek技术的核心特点,包括其混合专家模型、极致的工程优化以及动态路由机制和专家共享机制。DeepSeek通过多阶段的有监督微调和基于规则奖励的强化学习,逐步增强了模型的推理能力和效率。此外,文章还探讨了DeepSeek在不同应用场景中的潜力,如教育、医疗、法律等垂直领域,并展望了未来智能体的发展方向,特别是从生成大模型到推理大模型的转变。 适合人群:对人工智能和大语言模型感兴趣的科研人员、工程师以及希望了解最新技术进展的学生和从业者。 使用场景及目标:①理解语言模型和技术架构的演变,特别是Transformer架构的重要性;②掌握DeepSeek的技术细节,包括其训练过程和优化策略;③探索DeepSeek在各行业的应用前景,以及其对未来智能体发展的影响。 其他说明:本文不仅提供了DeepSeek技术的具体实现方法,还讨论了其在实际应用中的挑战和机遇。通过对DeepSeek的深入剖析,读者能够更好地理解当前大语言模型的研究趋势和发展方向。同时,文章强调了DeepSeek在资源受限环境下的高效表现,为探索通用人工智能开辟了新路径。

2025-06-03

【智能体应用与发展】2025年中国智能体发展现状、挑战及路径建议:多领域应用与技术突破综述

内容概要:本文由中国电子信息产业发展研究院发布,概述了智能体(AI Agent)的定义、核心能力及其战略意义。智能体是基于人工智能技术的交互系统,具备感知和理解、决策和规划、自主学习和适应、交互和沟通、知识表示和储存、情景感知和应变六大核心能力。智能体不仅推动了人工智能的广泛应用,还成为产业升级的“催化剂”,助力新型工业化,催生新模式新业态。文中详细介绍了智能体的技术栈与产业链,涵盖了从基础算力支持到垂直应用的各个层面,并列举了智能体在制造、自动驾驶、家庭生活、医疗、教育、金融等领域的具体应用。此外,文章分析了国内外厂商的发展情况,指出中国通过政策支持推动智能体多领域应用,美国以市场驱动研发,欧盟则强调伦理与法律框架。最后,文章提出了推动智能体发展的路径建议,包括统一定义与标准、优化生态体系、推进典型应用、加强政策支持、加大核心技术攻关等。 适合人群:对智能体技术感兴趣的科研人员、工程师、政策制定者及相关行业从业者。 使用场景及目标:①

2025-06-02

AI赋能企业数字化转型:机遇与实践.pptx

AI赋能企业数字化转型:机遇与实践.pptx

2025-05-29

Dify智能体:一键生成思维导图.yml

Dify智能体:一键生成思维导图.yml

2025-05-28

Dify大模型应用:抓股票最近30工作日成交数据.yml

Dify大模型应用:抓股票最近30工作日成交数据.yml

2025-05-28

工单系统咨询助手.yml

工单系统咨询助手.yml 用户通过填写不同类型的信息表单,将所反映的问题存入不同的数据库表中; 管理员从工单表里汇总问题,梳理好答案后将其上传至问题库; 问题库作为用户咨询问题时调用的知识资源,依据用户提出的问题,向其反馈相应答案。

2025-05-28

智慧财务系统:企业数字化转型的核心引擎.pptx

智慧财务系统:企业数字化转型的核心引擎.pptx

2025-05-27

人工智能场景下数据安全综合治理解决方案V1.2.pptx

人工智能场景下数据安全综合治理解决方案V1.2.pptx

2025-05-26

数据安全治理-从被动合规到业务赋能的体系化实践.pptx

数据安全治理-从被动合规到业务赋能的体系化实践.pptx

2025-05-26

【银行业数字化转型】数据治理与管理知识体系在商业银行的应用:提升数据质量与智能风控

内容概要:本文探讨了商业银行在数字化转型过程中面临的数据治理新挑战及数据管理知识体系的应用价值。文章首先介绍了商业银行数字化转型的背景,包括大数据治理体系的实践,如数字化营销、智能风控、数字化管理等。其次,详细阐述了数据管理知识体系在提升数据治理能力方面的具体措施,如建立统一数据视图、引入图分析工具、构建智能反洗钱辅助平台等。此外,还讨论了数据治理面临的挑战,如数据不完整、标准缺乏、用数门槛高等问题,并提出了相应的解决方案,包括数据标准化、数据安全管理等。 适用人群:银行从业者、金融科技研究人员、数据治理专业人士。 使用场景及目标:①帮助银行更好地应对数字化转型中的数据治理挑战;②提高数据质量和使用效率,确保数据的安全性和合规性;③通过智能化手段提升风控能力,优化客户体验。 其他说明:本文强调了数据管理知识体系在商业银行数字化转型中的重要性,不仅提供了理论指导,还结合实际案例展示了具体的应用效果。文中提到的多项技术和方法,如智能反欺诈、客户360度画像、反洗钱模型等,均有助于提升银行的核心竞争力和服务水平。

2025-05-25

0720-01 如何利用大数据进行数据挖掘与分析.pdf

0720-01 如何利用大数据进行数据挖掘与分析.pdf

2025-05-25

数据中台架构总体规划.pptx

数据中台架构总体规划.pptx

2025-05-25

战略咨询文库-大型集团管控培训方案134页PPT.pptx

战略咨询文库-大型集团管控培训方案134页PPT.pptx

2025-06-10

新一代数字化转型信息化总体规划方案.pptx

新一代数字化转型信息化总体规划方案.pptx

2025-06-10

战略咨询文库-甲方集团业务流程架构顶层规划及销售到回款方案163.pptx

战略咨询文库-甲方集团业务流程架构顶层规划及销售到回款方案163.pptx

2025-06-10

5G+智慧校园顶层设计方案.pptx

5G+智慧校园顶层设计方案.pptx

2025-06-10

某大型车企数据资产数据治理体系解决方案.pptx

某大型车企数据资产数据治理体系解决方案.pptx

2025-06-10

指标体系建设方案.pptx

指标体系建设方案.pptx

2025-06-10

大型集团公司IT蓝图总体规划报告P320.pptx

大型集团公司IT蓝图总体规划报告P320.pptx

2025-06-10

企业IT架构蓝图规划设计方案.pptx

企业IT架构蓝图规划设计方案.pptx

2025-06-10

Dify智能体:通用合同审查助手.yml

Dify智能体:通用合同审查助手.yml

2025-06-10

Dify智能体:获取金融投资新闻top10.yml

Dify智能体:获取金融投资新闻top10.yml

2025-06-05

Dify智能体:解析网页内容存到知识库.yml

Dify智能体:解析网页内容存到知识库.yml

2025-06-05

Dify智能体:搜索副本.yml

Dify智能体:搜索副本.yml

2025-06-05

Dify智能体:智能客服助手.yml

Dify智能体:智能客服助手.yml

2025-06-05

Dify智能体:小红书文案生成器.yml

Dify智能体:小红书文案生成器.yml

2025-06-05

Dify智能体:自动生成UML.yml

Dify智能体:自动生成UML.yml

2025-06-05

Dify智能体:deeptalk.yml

Dify智能体:deeptalk.yml

2025-06-05

Dify智能体:多维深度搜索助理.yml

Dify智能体:多维深度搜索助理.yml

2025-06-05

Dify智能体:智能多票据识别助手.yml智能多票据识别助手.yml

Dify智能体:智能多票据识别助手.yml

2025-06-05

【数据科学领域】构建数据分析师的底层逻辑:系统工程与思维培养-从知识地基到实践锤炼的全面指南

内容概要:本文详细阐述了构建数据分析师底层逻辑的系统性工程,涵盖四个方面:知识地基、思维模式、实践锤炼和外部视角。知识地基方面,强调了对业务、数据原理及工具方法的掌握;思维模式上,培养了以问题为导向、批判性、结构化、数据敏感度和迭代的思维方式;实践锤炼部分,提倡通过主动承担项目、练习“讲故事”能力、参与决策复盘和建立刻意练习循环来提升技能;外部视角则鼓励跨部门沟通、寻找导师、同行交流和学习领域知识。最终目标是使分析师能够迅速抓住业务核心,设计严谨的分析路径,提炼有价

2025-06-04

医疗AI项目管理平台;许用户查看模型性能随时间的变化以及关键里程碑的影响

医疗AI项目管理平台;许用户查看模型性能随时间的变化以及关键里程碑的影响。 这个应用提供了医疗 AI 项目敏感度进展的可视化展示,包括关键里程碑、资源优化效果以及未来四周的预测。界面采用现代化设计,包含响应式布局、交互图表和清晰的数据展示,能够帮助项目团队和决策者直观了解项目进展和性能指标。

2025-06-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除