案例精选
文章平均质量分 93
收集行业中比较经典的架构、开发、实战的案例
Impl_Sunny
这个作者很懒,什么都没留下…
展开
-
埋点成本治理实战(字节)
如果某个埋点的成本很高,而价值很低,那么它就是需要优先被治理的。① 埋点的成本直接与上报量相关:如果埋点的上报量越高,对它投入的计算和存储成本就越高。② 埋点的价值则从三个维度进行分析:离线查询,例如在 Hive 表中是否用到这个埋点;实时分流,例如这个埋点是否通过特定的实时分流规则,分流到了其他的 topic 中进行消费;是否有UBA的查询。如果在这三个维度上某个埋点的使用非常少,那么我们认为它的价值就是略低的。原创 2023-01-10 14:11:18 · 1166 阅读 · 0 评论 -
数据质量管理—理论大纲与实践(B站)
为了解释这个问题,我以我们团队在数据质量管理中积累下来的方法,为他写下四行字:数据质量期望——业务需求想要把数据质量保障到什么样的标准数据质量测量——怎么评估数据质量水平的高低、是否达到标准数据质量保障——为提升质量水平,达到质量期望,具体的保障实施动作和内容数据质量运营——如何通过数据化运营,提高保障的成果与效率这四行字,概括了我们在数据质量管理执行中的理论大纲。原创 2022-12-29 16:28:37 · 1115 阅读 · 0 评论 -
数据模型治理最佳实践参考(淘系)
该文章系统描述了数据模型治理的问题和解决方案,能给予数据人在数据治理方面有效的参考方案。从问题分析到结合问题得出解决方案都都能可以作为通用型解决方案的参考!原创 2022-09-14 11:32:43 · 533 阅读 · 0 评论 -
数仓数据质量保障方案参考
该文章简单通俗讲述了有赞保障数仓数据质量的实时方案,可以作为数仓数据质量方案设计的一些有用参考,同时文章中很多不同层次的方案设计可以直接借鉴使用。参考资料:1.微信公众号(数据治理体系)-《如何保障数仓数据质量?》原创 2022-09-06 11:49:33 · 650 阅读 · 0 评论 -
去哪儿网BI平台建设演进史
通过 BI 平台取数、看数、分析数成为辅助决策、精细运营等非常重要的手段,然而随着去哪儿网业务不断发展,产品、运营等同学对这方面有更高的要求,例如简单易用的拖拽式报表、取数方便的自由式分析、查询速度的秒级响应、观测指标数据的准确可信等等。面对用户的个性化诉求以及海量数据,在平台体系化建设和技术实现上有一定的挑战性,本文将介绍去哪儿网BI平台的建设历程及实践,通过打造全场景的BI平台为业务增长赋能。从2015年至今BI平台的建设,经历了多年迭代发展,始终结合业务需要遵循以下几个原则:用户尽可能的自助完成,使开原创 2022-06-20 17:19:04 · 764 阅读 · 0 评论 -
EFK升级到ClickHouse的日志存储实战
EKF搭建的日志系统升级成基于ClickHouse存储分析原创 2022-06-02 10:28:47 · 953 阅读 · 0 评论 -
低代码实时数仓构建系统的设计与实践
0、背景随着数据驱动业务的需求日益增多,数仓的建设越发频繁,开发人员在数仓构建这一个过程(埋点、埋点数据接收、数据补全、数据清洗、数据写入存储介质),从事着大量且重复的工作,同时对于实时数仓构建,需要一定的专业技能,例如需要懂得如何利用Flink等框架做过滤、转换、聚合等,对于后端业务团队来说,学习成本高,很难快速上手,开发成本居高不下。为了解决这些问题,低代码数仓构建系统应运而生,通过工程化的思想去解决,将固有领域问题交给系统,让开发人员关注数据本身,解放人力缩短数仓构建周期。一、整体架构原创 2022-05-26 10:28:04 · 420 阅读 · 0 评论 -
【Hologres】基于Hologres实时离线一体化数仓建设实践
0、案例业务背景在互联网大潮中,新东方在IT技术上也不断重构,持续投入大数据建设,研发大数据的相关技术和应用,从而快速而精准地响应业务需求,并用数据为集团各级领导提供决策依据。新东方的大数据应用主要包括两部分:企业应用端的业务场景(B端):包括交易,教学,人员等数据,数据规模为TB级。数据会被按照不同的条件和学校层级等,形成营收、教学、客服、财富人事等实时报表,为CRM系统的成千上万名业务顾问提供线索和商机的明细报表查询,同时也供各级管理人员了解业务的运行情况,辅助业务决策。 互联网直接面向用户场原创 2022-03-04 15:00:06 · 2386 阅读 · 0 评论 -
【统一数据开发平台】-OLAP分析平台和实时数仓实践和优化
一、业务背景BIGO 是一家面向海外的以短视频直播业务为主的公司, 目前公司的主要业务包括 BigoLive (全球直播服务),Likee (短视频创作分享平台),IMO (免费通信工具) 三部分,在全球范围内拥有 4 亿用户。伴随着业务的发展,对数据平台处理能力的要求也是越来越高,平台所面临的问题也是日益凸显,接下来将介绍 BIGO 大数据平台及其所面临的问题。BIGO 大数据平台的数据流转图如下所示:用户在 APP,Web 页面上的行为日志数据,以及关系数据库的 Binlog 数据会被同步到原创 2022-02-17 15:13:15 · 656 阅读 · 0 评论 -
【广告行业】基于Flink的广告行业实时数仓建设
一、建设背景广告是目前互联网流量变现的一种重要手段,广告投放的优化很大程度上依赖于广告效果数据,依托于广告曝光、点击、消耗、订单等指标调整广告投放策略,以达到最优投放效果。前期主要提供T+1效果数据,投放策略往往需要第二天才能做出调整,不能及时做出投放优化,特别在一些大促场景,实时优化显得尤为重要,需要及时调整例如人群、地域、出价等策略,以此为背景建设实时数据链路。目前实时数据的场景主要有以下几种:实时大屏:提供给运营、产品使用,展示核心的业务指标:曝光、点击、消耗等数据。实时特征:提供原创 2022-02-16 10:03:12 · 624 阅读 · 0 评论