数据仓库搭建及数据治理

前文:

               关于一个数据仓库的相关搭建及数据治理

一、项目搭建、数据治理

二、

数据仓库项目是这么搭建的?

一、开始是需求分析,分析业务的需求及主题,并完成数据建模的三个过程,确认具体的数据字段、异常数据的处理、数据划分等等,编写规格说明书。
二、设计的时候,就要确认数据采集过程,从数据源表、采集方式到文件格式、数据分层及表结构的设计。然后还要确认架构,编写出设计文档。
三、开发过程主要完成ETL层和采集层的开发,还要造数据,此时要不断确认需求,到最后写出验收案例。
四、开始写调用脚本,并对接口进行联合调试,编写部署文档。
五、最后阶段,生产环境的安装及生产测试。

数据生命周期?

为了减少数据冗余,提高数据的利用率
主要考虑数据的存储位置、存储时间、清除方式。

如何保障数据质量?

数据质量保障是为了 方便系统间的数据共享、减少转换、业务沟通、描述世界的真实性
需求分析时:要确认业务主题、使用专业术语,数据建模时,确定数据的类型、格式、长度
采集的数据要求要满足的准确性、完整性、统一性
在ETL过程中:对脏数据的处理方式
还要记录的数据的操作

元数据管理?

加强数据的可维护性、可读性
存储业务的指标、规则、专业术语
数据的存储位置、类型、血缘关系、数据质量规则
记录管理中的组织、操作等等

 

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
推荐,最强大数据学习与最佳实践资料合集,基础+架构+治理+案例,共100份。 一、基础篇 快手EB级HDFS挑战与实践 Hive任务开发规范 一文看懂Hadoop生态圈 资料-CentOS7搭建Hadoop-2.7.7集群 ClickHouse官方中文文档 ETL流程、数据流图及ETL过程解决方案 Google-MapReduce中文版_1.0 Hadoop安装及分布式部署 Hadoop精选面试题和MapReduce编程企业级编程实践 HDFS-part2-原理详解 HDFS核心内容及命令-2020 hive安装 hive语法和常用函数 Kafka安装 kylin安装 mapreduce调优指南 sqoop安装 二、架构篇 Flink-1.11 Hive集成与批流一体 ClickHouse在苏宁用户画像场景的实践 优酷大数据 OLAP 技术选型 阿里数据湖选型 各种系统架构图与详细说明 关于BI工具选型的参考依据 Apache Doris在京东搜索实时OLAP中的应用 ClickHouse官方中文文档 ClickHouse原理解析与应用实践 Doris竞品对比 Doris在美团外卖数仓架构中业务实践与改进思路 DorisDB原理剖析 和应用实践篇2021 Flink 流批一体的技术架构以及在阿里的实践 Flink实时仓库实践 Hadoop开源相关,Flink,Kylin等集群搭建2021 KylinCloud+Hudi实践 三、数仓篇 传统数仓与大数据数仓区别 模板-事实表梳理 模板-维度梳理 模板-业务梳理 模板-指标体系梳理 模板1-数据仓库项目计划 模板2-命名规范 模板3_访谈提问和沟通记录单模板 模板4_公共数据资源管理调研模板 模板5_公共数据资源管理分析模板 模板6-报表需求梳理 内部分享-基于 Hudi 和 Kylin 构建准实时高性能数据仓库 商业银行数据仓库系统V2.0 数据仓库建设方案 数据仓库建设规范模板 数据仓库整体设计方案模板 Hadoop构建数据仓库实践 四、治理篇 快手从模型规范开始的数据治理实践 第12章元数据管理-DAMA-DMBOK:数据管理知识体系 权限管理设计方案 数据安全模板-访问权限梳理表 数据治理服务解决方案 数据治理数据资产化创新实践-京东 万振龙:数据治理与大数据平台设计 主数据管理实践白皮书(1.0版) Apache atlas使用说明文档 atlas安装 CDH启用kerberos身份认证和sentry权限管理 DAMA-部委级数据治理项目经验分享 GrowingIO 2020指标体系与数据采集 GrowingIO公开课:搭建业务+数据一体化的指标体系 IBM 数据治理统一流程 ISO38500 IT治理国际标准 ISO_IEC_38500_2008_version_PDF 五、案例篇 字节Apache Flink在字节跳动的实践 Hudi on Flink在顺丰的实践应用-蔡适择 滴滴Flink在滴滴出行的应用与实践 阿里基于Flink的实时计算平台 菜鸟在物流场景中基于Apache Flink的流计算实践 腾讯clickhouse实践 Clickhouse玩转每天千亿数据-趣头条 微博基于Flink的机器学习实践 快手稳定性体系建设 快手元数据平台化建设及应用场景 快手指标规范化及OneService平台化实战 Apache Flink 在美团的实践与应用 快手服务治理平台+KESS+的设计理念和实战 快手数据中台建设:大数据服务化之路 快手离线数据全链路分级保障平台化建设 快手万亿级实时 OLAP 平台的建设与实践 ClickHouse在快手的大规模应用与架构改进 美团点评酒旅数据仓库建设实践 美团酒旅数据治理实践 美团外卖为何使用Doris创建数据仓库 内部分享-基于 Hudi 和 Kylin 构建准实时高性能数据仓库 实时数据产品实践——美团大交通战场沙盘 ClickHouse在苏宁用户画像场景的实践 腾讯云clickhouse性能调优实践 融合趋势下基于 Flink Kylin Hudi 湖仓一体的大数据生态体系 ClickHouse 在头条的技术演进 Doris的用户画像人群应用-会议组 Doris在美团外卖数仓架构中业务实践与改进思路 Flink 在 OPPO 的平台研发与应用实践 Flink实时仓库实践 Flink在滴滴的应用实践
### 回答1: 数据仓库知识体系是指在数据仓库领域中所需掌握的相关知识,这些知识通常包括数据仓库架构与模型、ETL工具、数据挖掘算法、数据可视化工具、数据质量管理等多个方面。 数据仓库架构与模型是搭建整个数据仓库的基础,在这个领域中需要掌握的知识包括维度建模、多维数据模型、实体关系图等等。 ETL工具是指数据仓库中专门用来进行数据抽取、转换和加载的软件工具,这也是数据仓库中最核心的部分之一。常见的ETL工具包括Informatica、SSIS等等。 数据挖掘算法作为数据仓库领域中的一项核心技术,主要是指在大规模数据处理中运用多种建模算法来发现数据中的价值信息以及隐含规律,并进一步挖掘其潜在的业务价值。 数据可视化工具则是在数据仓库领域中进行数据可视化分析与展现常用的工具,其中包括PowerBI、Tableau以及QlikView等等。通过这些工具可以将数据进行更加直观地展现和表现出来。 数据质量管理则是针对在数据仓库建立及运营过程中存在的数据质量问题进行治理和改进,其中包括数据去重、数据清洗以及数据验证等。 综上所述,数据仓库知识体系包括了多个方面的知识,数据仓库的建立和运营需要综合各方面的知识技能才能够得以顺利完成。 ### 回答2: 数据仓库知识体系 pdf 是一个介绍数据仓库概念和应用的文档,全文涵盖了数据仓库的基本概念、设计方法、建设流程、技术工具等方面。 文档首先介绍了数据仓库的定义和特点,以及与传统数据库的区别。接着,阐述了数据仓库的架构和组成部分,包括数据源、数据抽取、数据转化、数据存储等。同时,还提到了数据仓库的应用领域和价值。 在设计方法方面,数据仓库知识体系pdf详细介绍了维度建模和星型模型的概念及其应用。此外还介绍了数据仓库的规范化设计和ETL设计。 在建设流程方面,文档包括了需求分析、数据清洗、数据建模数据抽取转换、数据加载等阶段,并详细介绍了每个阶段的工作内容和关键点。 在技术工具方面,文档介绍了数据仓库建设和管理的关键技术工具,包括数据挖掘工具和BI工具等。 总之,数据仓库知识体系pdf涵盖了数据仓库建设的方方面面,是一本非常实用的数据仓库学习和应用指南。 ### 回答3: 数据仓库知识体系 PDF 是一本关于数据仓库概念、实现和运营的书籍。该书主要分为四个部分,包括数据仓库概述、数据仓库设计、数据仓库实现和数据仓库运营与管理。 在数据仓库概述部分,书中详细讲解了数据仓库的定义、架构、优势和挑战等方面的内容。读者可以通过本章节了解数据仓库的基本概念和背景,为后续的设计、实现和运营打下基础。 在数据仓库设计部分,书中介绍了数据仓库建模方法和技术。本章节从业务需求、数据建模数据仓库设计等方面讲述了数据仓库设计的流程和方法,读者可以通过该章节了解如何进行数据仓库设计。 在数据仓库实现部分,书中介绍了数据仓库的实现方法、数据抽取和转换技术、以及常用的数据仓库工具和平台等方面。本章节详细讲解了如何将设计好的数据仓库实现并提供服务。 在数据仓库运营与管理部分,书中介绍了数据仓库运营的流程和方法,包括数据质量管理、数据安全管理、数据仓库性能优化等方面的内容。读者可以通过本章节了解数据仓库的日常运营和管理的方法和技术。 总的来说,数据仓库知识体系 PDF 是一本非常实用的数据仓库实践指南,适合从事数据仓库设计、实现和运营的从业者和学习者参考。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值