数据治理
weixin_42497376
这个作者很懒,什么都没留下…
展开
-
hive数仓分层dws和ads区别
DWS层: 数据仓库的DWS层主要用于数据存储、数据处理、数据管理和数据查询,是数据仓库的核心部分,具备高效的数据管理和存储能力。而ADS层面则主要是为了完成对业务数据的分析、挖掘和应用,为业务决策提供支持。ADS层: ADS层是数据仓库的应用服务层,主要用于数据分析、数据挖掘和业务应用。ADS层中的数据通常是被加工过的、有结构的数据,可以直接用于提供业务应用。总的来说,DWS和ADS是数仓分层架构中两个不同的层次,各自拥有不同的功能和特点,并且相互衔接,共同为数据分析提供支持。原创 2023-10-23 17:41:05 · 659 阅读 · 0 评论 -
数据治理之多数据源如何取数
数据集成平台:数据集成平台是一种数据整合解决方案,它可以从多个数据源中提取数据,然后进行数据转换和整合。数据仓库通常包括数据集成、数据清洗、数据转换和数据加载等过程,确保数据的准确性和一致性。数据整合:从不同的数据源中提取的数据可能存在数据冲突或不兼容的情况,需要进行数据整合,以确保数据的一致性和准确性。对于这些数据,我们需要进行数据清洗和转换,以确保数据的质量。综上所述,多数据源取数实现是数据治理的一个重要环节,需要进行数据提取、清洗、整合和存储等一系列步骤,以确保数据的质量和一致性。原创 2023-10-23 17:37:24 · 99 阅读 · 0 评论 -
Hive数仓dwd和dws的区别与联系
DWD是DW Detail的简称,是数据仓库中的明细层,主要负责数据的抽取、清洗、转换和加载等工作,目的是将源系统中的数据格式统一为数据仓库中的统一模式。它们的联系在于:DWD层和DWS层都是数据仓库中的重要层次,DWD层提供完整、准确的明细数据,DWS层依据业务需求,提供分析型的汇总信息。DWS是DW Summary的简称,是数据仓库中的汇总层,主要负责对DWD层中的数据进一步汇总和计算,形成多维数据分析模型,便于用户进行决策分析。其中DWD和DWS是DW的两个主要层次。原创 2023-10-16 14:27:25 · 394 阅读 · 0 评论 -
Hive数仓ods接入多数据源的命名规范
数据库名称:通常将不同数据源的数据存储在不同的数据库中,可以根据数据源的名称或简称来命名数据库,例如ods_xxx、ods_yyy等。文件命名规范:文件名一般采用小写字母,使用下划线“_”分隔单词,例如ods_mysql_user_info_20200101.csv。(1)对于同一数据源的不同表,可以在表名前加上相应的前缀,例如ods_xxx_table1、ods_xxx_table2等。(2)对于不同数据源的同一张表,可以在表名后加上数据源的标识,例如table1_xxx、table1_yyy等。原创 2023-10-16 14:23:17 · 102 阅读 · 0 评论 -
Hive数仓分层设计思路
4.标准化数据层:对集成数据进行标准化和规范化,使得数据能够被更多的应用程序和用户使用,例如:将日期格式统一、将数据值统一转换为中文。3.集成数据层:将不同数据源的数据整合到一个数据仓库中,包括清洗数据层、外部数据源、应用程序数据源等,生成集成后的数据文件。2.清洗数据层:对原始数据进行基本的清洗和预处理,如去除重复数据、填充缺失值、转换数据类型等,生成清洗后的数据文件。5.数据标签层:对数据进行标签化,即将数据按照业务属性、数据源、时间等维度进行分类和标记,方便数据查询和分析。原创 2023-10-16 14:13:12 · 94 阅读 · 0 评论 -
常用的图数据库详解
它基于图形数据库引擎Apache TinkerPop构建,支持使用Gremlin查询语言进行查询,并且具有自动扩展功能和高可靠性。OrientDB:OrientDB是一个多模型数据库,具有图形数据库、关系数据库和文档数据库等功能。Neo4j:Neo4j是一个流行的开源图形数据库,它使用图形结构来存储数据,可以轻松地处理大规模的、高度连接的数据集。图数据库是一种特殊类型的数据库,它们使用图形结构来存储和管理数据,并且是最适合处理复杂的关系数据的数据库类型。原创 2023-09-28 15:51:40 · 206 阅读 · 0 评论 -
图数据库详解
它在处理多对多关系和复杂网络结构方面具有很强的优势,因此在社交网络、推荐系统、网络安全、生物信息学等领域得到了广泛的应用。尽管图数据库在某些特定场景下具有很大的优势,但在处理传统的结构化数据、事务处理和数据一致性等方面还存在一些限制。这种查询语言非常直观和简洁,可以有效地表达图形数据的查询和操作需求。数据模型:图数据库采用图形模型来表示数据,其中节点表示实体,边表示实体之间的关系。性能优势:图数据库使用高效的图形算法来处理大规模的复杂关系数据,因此在处理多对多关系和复杂网络结构方面具有很强的优势。原创 2023-09-28 15:50:08 · 37 阅读 · 0 评论 -
数仓分层ods,dwd,dws,ads详细介绍
DWD(Data Warehouse Detail)数据仓库明细层:DWD层是数据处理的核心层,其主要任务是将ODS层中的数据进行清洗、加工、集成、聚合等操作,构建出符合业务需求的数据模型。数据仓库分层是数据仓库建设的一个重要概念,主要是基于数据处理和管理的需求,将数据仓库划分为不同的层级,在每个层级中进行不同的数据处理和管理活动。数据仓库的分层架构是建设一个高效、灵活、可扩展的数据仓库的必要手段,通过合理的分层,可以提高数据仓库的管理和维护效率,提高数据的处理速度和质量,同时保证数据的安全性和可靠性。原创 2023-09-26 09:53:09 · 1439 阅读 · 0 评论 -
数据治理之数据建模八步走
数据建模八步法原创 2023-09-25 15:23:48 · 317 阅读 · 1 评论