自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

云祁QI

人生,海海,破浪前行。

  • 博客(603)
  • 资源 (2)
  • 收藏
  • 关注

原创 数仓实践:浅谈维度建模优劣分析

维度建模(dimensional modeling)是数据仓库建设中的一种数据建模方法,Kimball 最先提出这一概念。其最简单的描述就是,按照事实表、维度表来构建数据仓库、数据集市,这种方法最被人广泛知晓的名字就是星型模式(Star-Schema)。实体关系(E-R)建模:通常用于为单位的所有进程创建一个复杂的模型,这种方法已被证实在创建高效的联机事务处理 (OLTP)系统 方面很有效;相反,维度建模针对零散的业务进程创建个别的模型。

2024-07-10 22:23:36 113

原创 数仓实践:关于维度表的设计与实践

1、共享维度表。比如在阿里巴巴的数据仓库中,商品、卖家、买家、类目等维度有且只有一个。所以基于这些公共维度进行的交叉探查不会存在任何问题。2、一致性上卷,其中一个维度的维度属性是另一个维度的维度属性的子集,而两个维度的公共维度属性结构和内容相同。比如在阿里的商品体系中,有商品维度和类目维度,其中类目维度的维度属性是商品维度的维度属性的子集,且有相同的维度属性和维度属性值。这样基于类目维度进行不同业务过程的交叉探查也不会存在任何问题。3、交叉属性。两个维度具有部分相同的维度属性。

2024-07-10 11:50:26 571

原创 数据仓库:关于事实表的设计与实践

事实表 作为数据仓库维度建模的核心,紧紧围绕着业务过程来设计,通过获取描述业务过程的度量来表达业务过程,包含了引用的维度和与业务过程有关的度量。事实表中一条记录所表达的业务细节程度被称为粒度。通常粒度可以通过两种方式来表述:一种是维度属性组合所表示的细节程度;一种是所表示的具体业务含义。英文名:我们预设定了业务过程名作为命名的一部分,因此候选部分用户以下划线连接的英文缩写进一步表达逻辑模型的业务含义。名称:建议以相对完整的中文短语描述名称,主要包括业务主体、业务过程,比如淘宝交易下单业务事实表。

2024-07-08 20:17:09 718

原创 从数字化营销与运营视角:看流量效果的数据分析

基于数据打通的“全链路”营销是当下的“时髦”,应用它的前提是什么?深度营销和运营的关键数据如何获得?如何利用数据进行更精准的营销投放?如何利用数据优化投放的效果?如何促进消费者的转化,以及激活留存的客户,并不断提高他们的忠诚度?应该采用什么样的数据战略?宋星老师在《数据赋能:数字化营销与运营实战》中给出了以上问题的答案,最近正在读这本书,所以项采用框架拆解方式进行记录,一来通过梳理读书笔记倒逼自己...

2024-07-07 23:27:46 710

原创 《数据赋能:一本书讲透数字化营销与运营》—— 流量效果的数据分析

是需要数据科学家针对你的购物流程建立的自定义或算法模型,该模型能够最佳匹配用户转化的过程。该模型在建立、维护和使用上都最困难和最耗时的归因模型,但它能够最精确地评估各流量渠道对用户过程的影响效果。一般而言,在行业内除非强调是归因转化率,或者归因收入、归因ROAS等,否则都默认是末次交互转化率。原则一:细分。打开 Display 黑箱查看其内部的诸多广告就是细分。原则二:从大处着手。在细分后,查看流量多的流量渠道,因为这些流量渠道的花费大。当然。如果可能,那么你可以径直查看花费大的流量渠道表现。

2024-07-07 23:21:37 674

原创 《数据赋能:一本书讲透数字化营销与运营》—— 从正确的数据观开始

宋星老师在《》中给出了以上问题的答案,最近正在读这本书,所以项采用框架拆解方式进行记录,一来通过梳理读书笔记倒逼自己提升对数字化营销的认知,二来分享给需要的小伙伴们,供相互学习交流使用。本书围绕数据为企业数字化营销和业务增长赋能的两大主线——数据驱动和数据分析展开介绍,同时辅以近几年在中国企业界实际应用的真实案例进行生动讲解。主要涉及的内容有:数据的来源、获取与接入,,数据驱动的品牌、效果广告投放,,利用数据进行流量的宏观和微观转化,。

2024-06-26 20:46:35 498

原创 DAMA 数据管理知识体系指南:第十章 参考数据与主数据

关键步骤——1 数据模型管理:对于主数据来说,在企业级使用的术语和定义应该与整个组织 所进行的业务相关联,而不必依赖于源系统贡献的数据值。主数据是“以与业务活动相关的 通用和抽象概念形式 提供业务活动语境的数据,包括业务交易中涉及的内部和外部对象的详细信息(定义和标识符),如客户、产品、雇员、供应商和受控域(代码值)”。第十章在CDGA分值占比不高,CDGP分值占比较高,主要考点包括:定义、目标、原则、参考数据及主数据管理好处、异同点、哪些属于主数据、活动、工具、度量指标等基本概念。提出主数据的最佳版本。

2024-06-17 19:45:25 1378

原创 DAMA 数据管理知识体系指南:第七章 数据安全

5)已完成正式风险评估分析的业务单位的百分比。第七章在 CDGA|CDGP 考试中的分值占比较高,主要考核知识概念的熟练程度,主要考点包括:数据安全定义、目标与原则、驱动因素、安全过程 4A+E、安全手段(加密类型、脱敏类型与方法等)、PIC 数据类型、安全法律法规、活动、度量指标等。4A:访问(Access)、审计(Audit)、验证(Authentication)、授权(Authorization)。4)数据与特定业务流程的风险映射,与销售点设备相关的风险将包含在金融支付系统的风险预测中。

2024-06-16 00:21:33 703

原创 DAMA 数据管理知识体系指南:第五章 数据模型与设计

关系捕获概念实体之间的高级别交互、逻辑实体之间的详细交互、物理实体之间的约束。第五章是 CDGA|CDGP 考试的重点考核章节之一,分值占比高,知识点比较密集,重点考查知识点包括:数据建模的定义、6 种数据模型及建模方法、业务驱动因素、数据模型目标与原则、数据模型组件、建模的数据类型、数据模型级别、数据建模和设计活动等。实体中属性的物理展现为表、视图、文档、图形或文件中的列、字段、标记或节点等。概念数据模型仅包括给定的领域和职能中基础和关键的业务实体,同时也给出实体和实体之间关系的描述。

2024-05-29 23:30:25 940

原创 DAMA 数据管理知识体系指南:第三章 数据治理

由【数据管理专业人员】、【业务策略人员】,在【数据治理组织】的支持下共同起草数据治理的目标、原则和制度,然后由【数据管理专员】和【管理人员】审查并完善,最后由【数据管理委员会】终审、修订和发布。:需要组织文化的转变和持续的变革管理,文化包括组织思维和数据行为, 变革包括为实现未来预期的行为状态而支持的新思维、行为、策略和流程。以下为基于 DAMA-DMBOK2 梳理的核心常考知识点:驱动因素、目标和原则、组织和管理职责、数据治理活动、实施指南、组织和文化等。:理解和计算数据对组织的经济价值的过程。

2024-05-27 21:21:32 737

原创 DAMA 数据管理知识体系指南:第一章 数据管理

第一章在 CDGA|CDGP 考试中分值占比均不是很高,主要侧重点是考概念性的知识,理解数据管理的目标原则、还有与其他概念的区别点,同时掌握几个关键核心的图(车轮图、六边形图、语境关系图)。数据管理(Data Management):为了 交付、控制、保护 并 提升 数据和信息资产的 价值,在其整个生命周期中制订 计划、制度、规程和实践 活动,并 执行 和 监督 的过程。1 数据管理章程:总体愿景、业务案例、目标、指导原则、成功衡量标准、关键成功因素、可识别的风险、运营模式等。【满足自己和利益方的需求。

2024-05-23 23:24:07 882

原创 DAMA:数据治理 CDGA/CDGP 认证考试备考经验分享

主要方式就是看书,包括《DAMA-DMBOK2 数据管理知识体系指南》和《穿越数据的迷宫:数据管理执行指南》,这两本书在网络都有售卖。通读教材,了解基本内容和不同知识领域自己的掌握情况,做到心中有数精读教材,结合笔记、思维导图系统梳理知识点,这一遍时间最长结合了数贝(厦门数贝信息科技有限公司提供的“databok数据课”,可以在微信中搜索到小程序“数贝”)提供的练习题进行模拟训练,对训练过程中出错的题目反向查找知识点进行强化学习,加深理解查漏补缺,快速过一遍教材。

2024-05-18 16:25:51 1564

原创 DAMA:CDGP 考试重点及知识点分解

5、数据架构实施,评估和风险、组织和文化。1、数据治理业务驱动因素、目标和原则。1、数据质量业务驱动因素、目标和原则。1、数据架构的业务驱动、成果和实施。1、主数据业务驱动因素、目标和原则。1、元数据管理业务驱动,目标和原则。4、数据治理实施指南、组织和文化。1、业务驱动因素、目标和原则。2、数据治理组织和管理职责。1、数据安全业务驱动因素、单选(3)、 多选(1)单选(2)、 多选(4)单选(2)、 多选(4)6、参考数据和主数据治理。2、数据架构的基本概念。4、数据架构管理工具。6、数据架构评估指标。

2024-05-17 14:38:21 936

转载 数仓实践:构建数仓高质量建设指标体系

大家好,我是云祁。一个企业的数据仓库或者数据中台建设,往往都需要经历前期混沌摸索的阶段,踩过无数的坑之后,才会逐渐建设完善,形成适合自己的一套数仓体系和建设规范。今天就和大家分享一篇构建高质量数仓的踩坑好文章~一、 大数据仓库较差的建设先来回忆一下数仓建设经常遇到的一些坑或现象。二、构建数仓建设质量指标体系还在为如何评估数仓建设质量而犯愁么?本文在常规的分层建设、划分主题外将带大家一起探索出了一条...

2023-07-11 21:03:01 768 2

原创 数仓实践:企业级 CDP 数据工程实践经验

大家好,许久未见,我是云祁~今天想和大家分享下企业级CDP项目建设中的数据工程实践。在很多情况下,大家可能会将数据工程与ETL的过程画上等号,但实际上ETL只是数据工程的一部分,其工作量通常仅占整个数据项目的30%左右。而一个数据工程项目,本质上是要解决三大问题:客户有什么?客户想要什么?怎样设计最合理?因此,在数据工程项目中,数据现状梳理、业务理解和数据模型设计等工作量通常占据了项...

2023-07-06 21:08:44 1082 1

原创 企业级CDP数据工程实践(一):建设中的最佳实践

大家好,许久未见,我是云祁~今天想和大家分享下企业级CDP项目建设中的数据工程实践。在很多情况下,大家可能会将数据工程与ETL的过程画上等号,但实际上ETL只是数据工程的一部分,其工作量通常仅占整个数据项目的30%左右。而一个数据工程项目,本质上是要解决三大问题:客户有什么?客户想要什么?怎样设计最合理?因此,在数据工程项目中,数据现状梳理、业务理解和数据模型设计等工作量通常占据了项...

2023-07-06 21:08:44 216

转载 自我探索:2022年,拼命找到自己的使命

—1—使命(personal mission)是什么?到底、到底、到底什么是使命(mission)?有人说,使命就是“做什么”。愿景是“做成什么样”。这没错,但是这样的表述,会让人觉得使命和目标,工作范围,是差不多的意思,并没有真地讲清楚使命的“灵魂”。使命的灵魂是什么?我们常听说,“天将降大任于斯人也,必先苦其心志,劳其筋骨,饿其体肤,空乏其身,行拂乱其所为。”哇,...

2022-05-23 10:00:49 759 4

原创 数仓实践:浅谈 Kimball 维度建模

我们不管是基于 Hadoop 的数据仓库(如 Hive ),还是基于传统 MPP 架构的数据仓库(如 Teradata ),抑或是基于传统 Oracle 、MySQL 、SQL Server 关系型数据库的数据仓库,其实都面临如下问题:怎么组织数据仓库中的数据?怎么组织才能使得数据的使用最为方便和便捷?怎么组织才能使得数据仓库具有良好的可扩展性和可维护性?Kimball ...

2022-05-21 10:51:08 1453 1

转载 数据思考:数据驱动业务的四个层次

在实际工作中,不能驱动业务的数据分析是无效的。我们需要从数据出发,发现业务中不能直接发现的问题,辅助业务决策或者给出建议,这些建议和洞察能够切实推动业务的工作。这被称为数据驱动业务能力,是企业数据分析人员的关键能力。数据驱动业务可分为4个层级,辅助→协同→主导→洞察,从浅入深:level1 辅助数据辅助业务,支撑业务解决问题熟悉业务流程,掌握数据分析技能,能将数据和业务结...

2022-05-15 12:54:43 1650

原创 数仓实践:总线矩阵设计

如何设计一套切实可行的数据仓库呢?我们要明白,对于数据仓库的设计是不能完全依赖于业务的需求,但往往又必须要服务于业务的价值。因此,在构建数据仓库前,我们往往会通过总线矩阵设计,来快速理解业务并规划数据仓库体系。以求从宏观的角度来描述企业的业务和数据现状,并指导后续的数据仓库建模。不妨先来看看,祖师爷 Kimball 在书中对总线矩阵的定义:总线矩阵:提供一种分解企业DW/...

2022-05-10 21:30:26 2928

原创 数仓建设:数据域和主题域是什么关系?

为什么会有域的概念呢?首先来看看数据仓库的定义吧,数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。主题域已经体现出来了主题域用于将数据集市按照分析视角进行划分,通常是联系较为紧密的数据主题的集合。可以根据业务的关注点,将这些数据主题划分至不同的主题域。当然,还有另外一种说法。数据仓库是面向主题(数据综合、归类并进行分析利用的抽象)的...

2022-04-24 22:52:59 6463

转载 浅谈网易严选用户行为分析

在一二级市场萎靡的大环境下,新消费品的商业模式需要从早期的 流量-转化-留存 中解放出来,转而更专注于服务体验产品价值。商品品质和服务体验做得好,才能带来长期价值,要优于通过烧钱拉新的方式扩大短期规模。本文中数据均为脱敏/虚构数据。1商业模式在做用户分析前,通常需要对商业模式做一个基本的了解,我们先来看经典的5W1H问题。对于网易严选:Who:用户是谁?- 精品电商的用户...

2022-04-12 09:34:00 473

转载 基于阿里(OneData)的数仓体系建设

点击上方"蓝字"关注,“星标”一起成长本文目录:一、指导思想二、数据调研三、架构设计四、指标体系搭建五、模型设计六、维度设计七、事实表设计八、其他规范OneData 是阿里巴巴内部进行数据整合和管理方法体系和工具,其方法论对数仓建模依然有借鉴之处,一起来温故下来自《大数据之路:阿里巴巴大数据实践》的经验之谈吧。一、指导思想首先,要进行充分的业务调研和需求分析。其次,进...

2022-04-11 09:30:00 971

转载 数据架构建设方法及案例

数据架构的本质是数据模型和数据流(或叫数据分布),《华为数据之道》将数据架构分为数据资产目录、数据标准、数据模型及数据分布,DAMA将数据架构分为数据模型和数据流设计,差不多就是这个意思。但数据架构到底如何构建?有没有现成的案例可以参考呢?今天就结合企业管理信息域MSS具体案例跟大家讲一讲数据架构建的建设方法论,主要分为五个步骤:架构现状分析、数据实体梳理、数据主题域划分...

2022-04-08 09:30:00 3576

转载 来看看 ETL 和数仓建模的设计思路!

点击上方"蓝字"关注,“星标”一起成长什么是ETL?ETL是数据抽取(Extract)、转换(Transform)、加载(Load )的简写,它是将OLTP系统中的数据经过抽取,并将不同数据源的数据进行转换、整合,得出一致性的数据,然后加载到数据仓库中。简而言之ETL是完成从 OLTP系统到OLAP系统的过程数据仓库的架构数据仓库(Data Warehouse \ D...

2022-04-07 09:30:00 685

转载 关于数仓建设及数据治理的超全概括

进入主页,点击右上角“设为星标”比别人更快接收好文章本文分为两大节介绍,第一节是数仓建设,第二节是数据治理,内容较长,还请耐心阅读!在谈数仓之前,先来看下面几个问题:数仓为什么要分层?用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大。通过数据分...

2022-04-05 09:30:00 776

转载 用户运营指标体系建设实践 by 千冰仪

一、用户运营做什么?企业的生存和发展的根本是用户,用户的规模和增速可以决定一个公司的生死存亡。所以,各行各业,不管在做什么业务,都绕不开对用户的运营。今天主要讲讲,对于电商行业,用户运营主要做什么,如何构建数据化驱动的用户运营指标体系。数据指标体系的规划设计之前,必须要先搞清楚业务过程,“业务数据化,数据业务化”,强调的是数据和业务紧密的关系。对于用户运营来说,主要在做什...

2022-04-02 09:30:00 591

转载 淘宝APP用户行为数据分析 by 一只废鹅

大家好,我是云祁!今天和大家分享一篇淘宝用户行为数据分析的文章,干货内容值得收藏。一. 提出问题和应用模型1.本次分析的目的是想通过对淘宝用户行为进行数据分析,为以下问题提供解释和改进建议:(1)分析用户使用APP过程中的常见电商分析指标,确定各个环节的流失率。(2)利用假设检验思想分析流失原因,找到需要改进的环节。(3)研究用户在不同时间尺度下的行为规律,分析不同尺度下...

2022-03-31 09:30:00 2555 1

原创 如何构建用户画像,给用户打“标签”?

前言大家好,我是云祁!和大家分享一本近期读完的非常不错的技术书籍,赵宏田老师的《用户画像:方法论与工程化解决方案》。用户画像是目前在技术公司广泛使用的技术,是根据客户人口统计信息、社交关系、偏好习惯和消费行为等信息而抽象出来的标签化画像。常常用在精准营销、圈定人群、发送短信消息、APP弹窗等等,用户画像的准确性往往会直接影响运营的效果和获客成本。用户画像另一个不太为普通人所知的用处是风控,建设用户画像是互联网金融领域风险控制的基础和关键,直接影响到公司的营收。这本书整体介绍了用户画像的实现方案.

2022-03-27 23:35:06 6918

转载 知乎用户画像与实时数据架构实践

大家好,我是云祁!今天和大家分享知乎侯容老师关于用户画像和实时数据架构实践的干货。侯容:知乎数据赋能组 Leader,主要负责实时数据、用户理解方向。一、前言‍‍‍‍‍‍‍‍知乎业务中,随着各业务线业务的发展,逐渐对用户画像和实时数据这两部分的诉求越来越多。对用户画像方面,期望有更快、更准、更方便的人群筛选工具和方便的用户群体分析能力。对于实时数据方面,期望拥有可以实时响...

2022-03-25 09:30:00 1061

原创 人生海海,山山而川,不过尔尔。

《人生海海》这是一本书的名字,似乎是有点奇怪的书名。它是茅盾文学奖得主麦家老师耗时8年,经过5年打磨的最终呈现。身处互联网的我,最近两年总感觉焦虑与无奈。偶然看到这本书的预售,腰封上写着 “人生海海,敢死不是勇气,活着才需要勇气。你要替我记住这句话,我要不选到它,死几回都不够。” ,被这句话深深吸引,迫切想要读一读这本书。整本书围绕着主人公——蒋正南(有人叫他“上校”,也有人叫他“太监”)在时代穿行缠斗的一生,他是救死扶伤的“金一刀”,亦是深入虎穴的抗日英雄,同样也是乡亲们眼中无所不能的神人。他这一.

2022-03-23 23:05:17 1251

转载 开源大数据 OLAP 引擎最佳实践

本篇内容将通过六个部分来介绍开源大数据OLAP引擎最佳实践。01开源OLAP综述 如今的开源数据引擎多种多样,不同种类的引擎满足了我们不同的需求。现在ROLAP计算存储一体的数据仓库主要有三种,即StarRocks(DorisDB),ClickHouse和Apache Doris。应用最广的数据查询系统主要有Druid,Kylin和HBase。MPP引擎...

2022-03-23 09:30:00 438

原创 Hive 调优集锦,让 Hive 调优想法不再碎片化

一、前言1.1 概念Hive 依赖于 HDFS 存储数据,Hive 将 HQL 转换成 MapReduce 执行,所以说 Hive 是基于Hadoop 的一个数据仓库工具,实质就是一款基于 HDFS 的 MapReduce 计算框架,对存储在HDFS 中的数据进行分析和管理。1.2 架构1.用户接口:ClientCLI(hive shell)、JDBC/ODBC(java访问hive)、WEBUI(浏览器访问hive)2.元数据:Metastore元数据包括:表名、表所属的数据库(默认

2022-03-23 00:03:40 1105

原创 我的2021年终回顾:一如少年,眼眸有星辰,心中有山海

大家好,我是云祁。好久不见呀~

2022-01-03 23:23:44 874 1

转载 搞了三年,再看数据中台的价值与解决方案

一、数字化转型面临的痛点问题1.指标口径不统一产品部门和财务部门一起开会给老板汇报,APP下单用户数产品1021W,财务1000W,产品说我的数据是数据团队出的,财务说我的也是,那数据为什...

2021-12-17 21:00:00 914 1

转载 终于有人把大数据架构讲明白了

导读:如何存储、如何利用大规模的服务器集群处理计算才是大数据技术的核心。作者:李智慧来源:大数据DT(ID:hzdashuju)大数据技术其实是分布式技术在数据处理领域的创新性应用,其本质...

2021-12-16 21:51:27 378

转载 数据开发的技术提升之道

数据开发的技术提升之道|0x00 数据开发数据开发在大型互联网公司中,通常是贴近业务的角色,因为数据相关的工具,比如开发工具、监控工具、血缘工具、质量工具,都做的非常完善了,甚至能够对外提...

2021-12-08 21:54:54 336

转载 数据治理:商品主数据怎么管?

来源:谈数据,作者:石秀峰全文共3096个字,建议阅读5分钟Hi,大家好!之前写过一篇文章《一文讲透,工业企业的物料主数据管理》,时隔了一年多,突然公众号后台收到一条消息:石老师看了您工业...

2021-12-06 22:35:55 841

转载 125页PPT看完《华为数据之道》

随着数字化转型的深入开展,数据成为新的生产要素。对于非数字原生企业,数据治理的重要性越来越突出。如何有效地开展数据治理工作、提升数据质量、打破数据孤岛、充分发挥数据的业务价值,成了业界的热...

2021-11-25 22:30:00 2759 1

转载 数据中台的OneID是个什么鬼,主数据它不香吗?

来源:谈数据,作者:石秀峰全文共3188个字,建议阅读6分钟如题!这个问题一直困扰了我很久,在阿里的数据中台中,有三个主要的组成部分OneID、OneData和OneService。我之前...

2021-11-23 21:00:00 2878

阿里云云计算ACP.xmind

阿里云云计算ACP认证学习思维导图,个人整理的,分享给大家。阿里云云计算专业认证考试(Alibaba Cloud Certified Professional,ACP)是面向使用阿里云云计算产品的架构、开发、运维人员的专业技术认证。

2020-05-27

阿里云大数据ACP.xmind

阿里云大数据ACP认证考试思维导图,本人学习考证过程中亲自整理的,耗时一周,都是精华所在,阿里云大数据ACP考试认证应该会有帮助。

2020-05-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除