数据治理004-数据仓库中数据域和主题域的区别

数据仓库

数据仓库的定义:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。

数据域和主题域是数据仓库中两个重要的概念,他们在数据仓库建设和数据分析中扮演着不同的角色,两者有着明显的区别。

数据域:以业务系统的角度,对业务过程进行归纳,抽象出来的数据域。它是自下而上的,通常在完成业务系统数据调研后就可以进行数据域的划分。数据域更侧重于从业务数据的角度进行划分,确保数据的完整性和准确性。
主题域:从数据分析应用的角度进行划分的,通常是联系较为紧密的数据主题的集合。主题域是自上而下的,更侧重于业务分析的视角来划分数据。根据业务需求的特点,可以将从业务系统划分的数据域重新划分至不同的主题域。主题域可以帮助分析人员更好的理解和利用数据,从而做出更准确的业务决策。
总结:建设数仓就像饭店做菜一样,数据域如同厨房根据采购的食材特点将他们摆放在不同货架区,如肉区、蔬菜区、水果区、调味区等。主题域如同饭店根据不同食客群体的口味需求将食材做成不同的菜系,如鲁菜、川菜等。

数据域

避免数据冗余和冲突:确保统一数据域中的数据是相对集中的,避免不同数据域之间的数据冗余和冲突。

粒度适中:数据域的粒度要适中,不能过大或过小。如果粒度过大,则会造成数据归纳不清晰;如果粒度过小,则会造成数据管理复杂化。

保持数据域的稳定性:数据域的划分应该相对稳定,避免频繁调整,以保证数据分析的稳定性和可靠性。

举例:

用户域:注册、登陆、购买等
交易域:下单、支付、退款等
营销域:患者报道、分销、推广、优惠券等一切营销相关的数据等
日志域:代码埋点、全埋点、业务埋点、nginx日志等
商品内容域:课程、咨询、商品等一切供给相关的实体等

主题域

    主题是在较高层次上将企业信息系统中的数据进行综合、归纳和分析利用的一个抽象概念,每一个主题基本对应一个宏观的分析领域。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。

简单说,一个主题对应的一个分析对象。分析对象就是决策、分析时重点关注的东西,这个东西是非常主观的,在不同的企业,或者企业不同的发展时期,所关注的点会不一样,从而影响有些主题可能存在或者不存在。数据仓库是面向主题的应用,主要功能是将数据综合、归纳并进行分析利用。数据仓库模型设计除横向的分层外,通常还需要根据业务情况纵向划分主题域。主题域是业务对象高度概括的概念层次归纳,目的是便于数据的管理和应用。

划分方法

按照业务过程划分:一个业务过程抽象出一个主题域,例如业务系统中的商品、交易、物流等;
按照业务部门划分:一个业务部门抽象出一个主题域,例如中台部门、业务运营部门、供应链部门等;
按照业务系统划分:一个业务系统抽象出一个主题域,例如搬家系统、ERP系统;
按照需求划分:长期分析的过程涉及到各种主题,会对数据进行细分、归纳,在这个过程中由需求诞生了主题域;
按照功能划分:软件的不同功能模块也可以归纳为不同的主题域,例如社交软件中的聊天、朋友圈、群聊、发送文件等功能模块;
按照部门划分:现代企业不同的业务部门也会形成各种不同的主题,例如销售域、生产域、财务域等;

举例

用户行为分析:分析用户在网站或者应用程序上的行为模式,例如浏览历史、购买记录、推荐系统等;
运营数据分析:分析业务运营过程中的数据,例如用户转化率、转化漏斗、成本控制,有助于优化业务流程和提高销量;
用户画像:根据用户的行为和特征,创建用户的画像,以便更好的理解用户需求和行为,并进行个性化的推荐和营销;
市场数据分析:分析市场趋势、竞争对手情况、用户需求等,有助于制定市场战略和开发新的产品和服务;
业务资金分析:分析业务风险。
主题域的核心
为了保障整个体系的生命力,主题域需要抽象提炼,并长期维护更新,但不轻易变动。划分数据域时,需要满足以下两点:

能涵盖当前所有的业务需求;
能在新业务进入时,无影响的被包含进已有的主题域和扩展的主题域。

总结:

数据仓库时一套方法论,但并不是一个“定理”,可能不会有完全符合公司实际业务的“公式”,我们需要学习这些方法论,然后结合自己公司实际的业务场景来实现,只要能有序的把数据管控起来,同时又能高效的帮助数据分析,实现业务价值就好了,不必一味的追求“行业标准”,毕竟适合自己的才是最好的。

数据域与主题域区别

数据域是自下而上,以业务数据视角来划分数据,一般进行完业务系统数据调研之后就可以进行数据域的划分。

主题域则自上而下,以业务分析视角来划分数据,一般进行完业务需求调研之后才可以进行主题域的划分。

例如,商品数据域是面向数据的,对数据的分类,数据驱动业务,更好地赋能业务;商品主题域是面向主题的,根据业务需求分析,从业务驱动进行分析场景的建设。
在这里插入图片描述
举个更形象点的例子,建设数仓就像饭店做菜一样,数仓在面向业务系统数据根据其特点划分出数据域,如同厨房根据采购的食材特点将它们摆放在不同货架区,如肉禽区、果蔬区、调味区等。而数仓在面向业务分析根据其需求划分出主题域,如同饭店根据不同食客群体的口味需求将食材做成了不同菜系,如江浙菜、鲁菜、川菜等。

主题域

主题域通常是 联系较为紧密的数据 主题的集合。可以根据业务的关注点,将这些数据主题划分到不同的主题域。主题域的确定必须由最终用户和数据仓库的设计人员共同完成。
主题域用于将数据集市按照分析视角进行划分,通常是联系较为紧密的数据主题的集合。可以根据业务的关注点,将这些数据主题划分至不同的主题域。

主题域通常是 联系较为紧密的数据 主题的集合。可以根据业务的关注点,将这些数据主题划分到不同的主题域。主题域的确定必须由最终用户和数据仓库的设计人员共同完成。

主题域、主题、实体间关系

主题设计是对主题域进一步分解,细化的过程。主题域下面可以有多个主题,主题还可以划分成更多的子主题,而实体则是不可划分的最小单位。主题域、主题、实体的关系如下图所示:
在这里插入图片描述

可以显而易见的看出,主题域是一个更大的概念,主题是略次之,实体最小,这里的实体表示的是实体对象(对应企业中某一宏观分析领域所涉及的分析对象)。

主题域划分

主题域是对某个主题进行分析后确定的主题的边界。分析主题域,确定要装载到数据仓库的主题是信息打包技术的第一步。而在进行数据仓库设计时,一般是一次先建立一个主题或企业全部主题中的一部分,因此在大多数数据仓库的设计过程中都有一个主题域的选择过程。

确定主题边界实际上需要进一步理解业务关系,因此在确定整个分析主题后,还需要对这些主题进行初步的细化才便于获取每一个主题应该具有的边界。对于四个主题及其在企业中的业务关系可以确定边界。

在这里插入图片描述

主题的使用

由于数据仓库的设计是一个螺旋发展的过程。在刚开始,没有必要在数据仓库的数据库中体现所有的主题,选择最重要的主题作为数据仓库设计的试金石是很有必要的。因此使用主题首先是找到需要分析的主题域。

例如在 AdventureWorks DW 数据仓库的概念模型设计中,在对需求进行分析后,认识到“商品”主题既是一个销售型企业最基本的业务对象,又是进行决策分析的最主要领域,因而把“销售分析”主题域定义为要首先建立的主题。通过“商品”主题的建立,经营者就可以对整个企业的经营状况有较全面的了解。先实施“商品”主题可以尽快地满足企业管理人员建立数据仓库的最初要求,所以先选定“商品”主题进行实施。

通过将主题边界的划分应用到已经得到的关系模型上还能形成原始的概念模型。这一模型是把主题域的划分和事务处理数据库中的表结合起来的模型,例如在上面的例子中,商品主题可能涵盖的关系表有商品表、供应关系表、购买关系表和仓储关系表;仓库主题可能涵盖的关系表有仓库关系表、仓库表、仓库管理关系表和管理员表。

数据域

数据仓库是面向主题(数据综合、归类并进行分析利用的抽象)的应用。数据仓库模型设计除横向的分层外,通常也需要根据业务情况进行纵向划分数据域。数据域是联系较为紧密的数据主题的集合,通常是根据业务类别、数据来源、数据用途等多个维度,对企业的业务数据进行的区域划分,将同类型数据存放在一起,便于快速查找需要的内容。不同使用目的数据,分类标准不同。例如,电商行业通常分为交易域、会员域、商品域等。
数据域划分原则:全局性、可理解性和数量适中。

数据域是指面向业务分析,将业务过程或者维度进行抽象的集合。为保障整个体系的生命力,数据域需要抽象提炼,并长期维护更新。

在划分数据域时,既能涵盖当前所有的业务需求,又能让新业务在进入时可以被包含进已有的数据域或扩展新的数据域。数据域的划分工作可以在业务调研之后进行,需要分析各个业务模块中有哪些业务活动。

数据域是 CDM 层的顶层划分,是对企业业务的抽象提炼,面向业务分析,包含当前所有业务需求,也便于未来扩展。

数据域的使用

数据域可以按照用户企业的部门划分,也可以按照业务过程或者业务板块中的功能模块进行划分。例如在线教育公司可以划分为如下数据域,数据域中每一部分都是实际业务过程经过归纳抽象之后得出的。
在这里插入图片描述

数据域和主题域到底有什么区别呢?

主题域是针对数据集市提出的概念,数据集市是面向主题,从业务驱动进行分析场景的建设。

数据域是阿里数据中台 CDM 层建设中提出的,是数据驱动业务,是对数据的分类,更好的数据赋能业务。

总结

数据域是对数据的分类,主题域和业务域是对业务的分类。

主题域和数据域最终都是对数据的分类,只是一个是数据视角,一个是业务视角。

根本的目的是:统一规则,方便管理,容易理解,有利于开发效率,有利于快速服务业务场景就可以了。

Tips

个人建议,在 DWD 层可以按照数据域进行分类,DWS 层可以按照主题域划分,ADS 层可以按照分析主题域(业务场景)划分。

数据域划分几点需要注意的地方

1.不重不漏,确保每个表都在一个域里,且只在一个域里(精确定位)
2.每个域下都可以根据需要再分子域,不限定层级(最自由方便)
3.如果分子域就不能放表,表只放在最底层的域中(树状目录管理时更方便)
4.最好保证每个域下的子域数量或表数量在20个左右(太多了不方便记忆管理,太少了没必要划分)
5.【其他】很好用,不好划分的都放里面(减少域层级数量有理由理解记忆)
6.数据团队分域可以作为分工的标准(数据不重、分工明确、界限清晰)
7.数据团队分域后,可以决定域内表的中间命名(看到表名时可以理解更多信息)

引用来源:
数仓解惑:数据域VS主题域
数据域VS主题域
原创好文!聊聊数据域和主题域的区别

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值