自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (1)
  • 收藏
  • 关注

原创 数据仓库建设核心:我们为什么坚持分层与建模

基本保持数据原貌,结构与业务系统基本一致。通常仅做简单的清洗(如删除明显异常数据)和字段标准化(如字符集统一)。支持。

2025-11-24 19:45:14 415

原创 bitmap在流量领域的应用

传统的在小数据集上表现尚可,但一旦面对亿级流量,Shuffle 数据爆炸、内存溢出、计算延迟等问题便接踵而至。而近似算法如 HyperLogLog 虽能缓解资源压力,却无法支持“用户交集”“路径去重”“实时圈选”等关键业务需求。正是在这样的背景下,。它用极致的空间压缩和位运算的并行优势,将 UV 统计从“资源黑洞”变为“轻量操作”,更让复杂的用户画像交叉分析在秒级完成。

2025-11-20 18:52:28 493

原创 如何构建可解释、可信任的离线归因体系

本文探讨了APP资源位归因分析的技术方案。针对复杂的用户跳转路径导致的归因盲区问题,提出基于离线计算的归因系统架构。方案选用末次点击归因模型,支持最多5层触点追溯,重点解决回退行为处理等关键逻辑。通过优化数据预处理、路径排序算法和表连接方式提升性能,为运营决策提供准确可靠的归因数据支持。

2025-11-19 11:19:04 701

原创 Spark笔记

2025-11-13 15:26:28 158

原创 流批一体场景下的数据仓库表命名规范

df, 按日分区,每日全量,按照业务主键(比如订单表的订单号),分区内业务主键唯一,跨分区数据会重复,一般不使用。_di,按日分区,每日增量,按照业务主键(比如订单表的订单号),全表业务主键唯一 (最常用)_multi_di,按日分区,每日增量,按照业务主键+状态(比如订单表的订单号),当日唯一。_du_di,按日分区,每日增量,按照业务主键+最新状态(比如订单表的订单号),当日唯一。dwd_vip_order_detail_di (每日增量,按照主键,只有一条数据)

2025-10-13 09:27:19 175

数据结构 c++约瑟夫环

数据结构 ,约瑟夫环 用c++语言写的,通过构造结点进行连接

2009-05-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除