![](https://img-blog.csdnimg.cn/direct/a0d3b225e71d4bc08d69346ec3a4a514.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
数据仓库内容分享
文章平均质量分 92
数据仓库(DataWarehouse),一般缩写成DW、DWH。数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。
之乎者也·
机车疾驰在路上,代码飞舞在指尖,热血与逻辑交织,创造属于我的数字世界。
展开
-
架构设计内容分享(二百零一):什么是数据仓库的架构?企业数据仓库架构如何建设?
以上报表型、分析型的数据产品,但也会有延申出来的各种特定业务的数据决策系统,比如银行业基于管理层监控的的行长驾驶舱、零售业基于门店数据经营的决策系统,以及电商平台的营销参谋(输入营销目标及参数,比如要开展双十一母婴市场的促销活动,系统可以基于以往海量数据计算出应该选择什么品类的商品,在什么用户群中,以什么形式开展活动效果会更佳),都是基于这样的逻辑——基于业务深度应用。而数据挖掘则是通过历史数据建立模型,在拟合历史的基础上,分析未来趋势,判断哪些因素的改变将很可能意味着客户的最终流失,进而避免其发生。原创 2024-02-15 09:35:25 · 1073 阅读 · 0 评论 -
数据仓库内容分享(十八):数据仓库、数据中台、大数据平台的关系?
数据库的概念,大家应该都不陌生,而数据仓库其实就是数据库概念的升级版。数据仓库是为了解决数据库负载有限、满足企业新增的分析需求而被设计出来的。如果数据想要从各个数据库迁移到统一数据仓库中,就需要经历抽取、转化、加载(ETL),最终变身成可以直接被业务人员分析的结构化/半结构化的数据。在数据仓库后面,企业常用BI分析数据,产生报表,辅助决策。数据仓库是指存储大量数据的一个系统,数据仓库通常被用来收集、整合和存储企业或组织的各类数据,以便进行分析和决策。原创 2024-02-08 21:32:17 · 1324 阅读 · 0 评论 -
数据仓库内容分享(十七):Doris实践分享:它做了哪些架构优化和场景优化?
Apache Doris是一款开源的实时数据仓库,由百度旗下的技术团队开发。它具有高性能、高可靠性、易扩展等特点,能够满足大规模数据实时查询和分析的需求。目前,Apache Doris已经成为国内外众多企业的首选数据仓库解决方案,包括阿里巴巴、美团、京东、滴滴等知名企业。作为被众多大型互联网企业广泛采用的实时数据仓库,Doris拥有一些核心优势和独特的特点。我们从它的架构设计和使用场景来看一下这些优势。原创 2024-02-08 19:43:50 · 1443 阅读 · 0 评论 -
数据仓库内容分享(十六):Doris到底有多牛,为什么大厂都在使用它?
官方地址:https://doris.apache.org/Apache Doris源于百度2008年启动的产品Palo在2018年捐献给Apache基金会,是一个基于 MPP 架构的高性能、实时的分析型数据库,它非常简单易用,而且性能还不错,仅需亚秒级响应时间即可获得查询结果,不仅支持高并发的查询场景,也可以支持高吞吐的复杂分析场景,比如你可以基于它做用户行为分析、日志检索平台、用户画像分析、订单分析等应用。Doris的架构非常简洁,易于运维,并且可以支持10PB以上的超大数据集。原创 2024-02-08 19:16:11 · 1428 阅读 · 0 评论 -
大数据内容分享(十六):数据仓库、数据湖、湖仓一体,究竟有什么区别?
近几年大数据概念太多了,数据库和数据仓库还没搞清楚,就又出了数据湖,现在又说什么“湖仓一体”。乙方公司拼命造概念,甲方公司不管三七二十一,吭哧吭哧花钱搞数据建设。到头来发现,钱也花了,人力也投入了,但最基本的业务需求都解决不了。这篇就专门来解释一下数据库、数据仓库、数据湖、湖仓一体到底都是什么以及怎么用。什么是数据库?可以把数据库理解为一个虚拟的图书馆,每一本书都代表了一个数据记录,而书架和分类系统则对应数据库和表格和索引,读者可以快速查找和管理所需要的信息。原创 2024-01-05 19:13:09 · 412 阅读 · 0 评论 -
数据仓库内容分享(十五):解读向量数据库
首先,我们需要理解什么是向量?向量是基于不同特征或属性来描述对象的数据表示。每个向量代表一个单独的数据点,例如一个词或一张图片,由描述其许多特性的值的集合组成。这些变量有时被称为“特征”或“维度”。例如,一张图片可以表示为像素值的向量,整个句子也可以表示为单词嵌入的向量。一些常用的数据向量如下:图像向量,通过深度学习模型提取的图像特征向量,这些特征向量捕捉了图像的重要信息,如颜色、形状、纹理等,可以用于图像识别、检索等任务;原创 2024-01-28 22:20:58 · 1484 阅读 · 0 评论 -
数据仓库内容分享(十四):数仓之数据质量管理
数据质量管理是数据仓库建设中至关重要的一环。通过对数据质量的评估和提升,可以确保数据的准确性、一致性和完整性,提高数据的可信度和可用性。数据质量管理体系和相关策略与技术能够帮助企业构建可持续的数据质量管理机制,为企业决策和运营提供有力的支持。原创 2024-01-28 22:10:25 · 1003 阅读 · 0 评论 -
数据仓库内容分享(十三):谈谈如何通过主数据MDM 开启数据治理之旅
分配对主数据负责的数据或域所有者。因此,可以为主数据引入和定义数据治理角色,从而实现数据所有权和问责制的文化,然后可以在整个组织中扩展,从而确保数据治理实践的一致性。这不应该是可选的——如果有掌握的数据,那么对于任何使用这些数据的人来说,它的消费应该是强制性的。它提供了一种全面的方法,可以为关键业务实体建立可靠的事实来源,构建强大的数据治理框架,并推动各种数据管理功能的成熟度。围绕 MDM 解决方案和掌握的数据,建立了基础治理,包括通过定义一组策略和标准来概述对 MDM 的一般期望,以及特定的角色和职责。原创 2024-01-28 22:06:40 · 982 阅读 · 0 评论 -
数据仓库内容分享(十二):数仓和大数据的双向奔赴
在 MapReduce 流行这些年之后,针对大数据集的已经逐渐成熟。到现在(2017年)已经有比较成熟的基础设施可以在上千台机器上处理 PB 量级的数据。因此,针对这个量级的可以认为已经被解决,大家的注意力开始转到其他问题上:完善编程模型提升处理性能扩大处理领域之前我们讨论过,由于 MapReduce 提供的编程接口实在太过难用,像 Hive, Pig,Cascading 和 Crunch 等处理 API 和框架逐渐流行。Apache Tez 更进一步,可以让原来的代码不做过多改动就可以迁移。原创 2024-01-28 21:19:16 · 866 阅读 · 0 评论 -
数据仓库内容分享(十一):大数据仓库开发规范示例
该层使用DWD层数据,维度数据,对业务上有关联的实体做连接,形成统一粒度的,跨业务流程的,多业务实体的,轻度汇总数据。数仓主要包含ODS/DWD/DWS/DIM/DM几个标准化的分层,同时结合企业实际的情况,如补录的数据,在数据ETL过程中的临时处理数据等,根据用途汇总为贴源层、数据共享层、数据服务层。层数据,保留业务实体的原子粒度,并且通过数据清洗和一定程度的数据转换,保障数据质量。数据的完整性,包括实体的完整性(分段的业务表),数据行的完整性(不同阶段的业务周期的汇集),字段的完整性(关键业务字段)原创 2024-01-28 21:10:19 · 1358 阅读 · 0 评论 -
数据仓库内容分享(十):CDC 技术
CDC 的全称是(变更数据捕获) ,在广义的概念上,只要是能捕获数据变更的技术,我们都可以称之为 CDC。目前通常描述的 CDC 技术主要面向数据库的变更,是一种用于捕获数据库中数据变更的技术。CDC 技术的应用场景非常广泛:数据同步:用于备份,容灾;数据分发:一个数据源分发给多个下游系统;数据采集:面向数据仓库 / 数据湖的 ETL 数据集成,是非常重要的数据源。CDC 的技术方案非常多,目前业界主流的实现机制可以分为两种:基于查询的 CDC:离线调度查询作业,批处理。原创 2024-01-28 21:00:44 · 2002 阅读 · 0 评论 -
数据仓库内容分享(九):数仓分层设计
在源数据装入这一层时,要进行诸如去噪(例如有一条数据中人的年龄是 300 岁,这种属于异常数据,就需要提前做一些处理)、去重(例如在个人资料表中,同一 ID 却有两条重复数据,在接入的时候需要做一步去重)、字段命名规范等一系列操作。这层的数据是后续数据仓库加工数据的来源。DWS 数据服务层 Data Warehouse Service,DWS(宽表-用户行为,轻度聚合)该层是基于DWM上的基础数据,整合汇总成分析某一个主题域的数据服务层,一般是宽表,用于提供后续的业务查询,OLAP分析,数据分发等。原创 2024-01-28 20:34:21 · 1076 阅读 · 0 评论 -
数据仓库内容分享(八):OLTP & OLAP & HTAP
HTAP是混合 OLTP 和 OLAP 业务同时处理的系统 ,2014年Garnter公司给出了严格的定义:混合事务/分析处理(HTAP)是一种新兴的应用体系结构,它打破了事务处理和分析之间的“墙”。钻取:是改变维的层次,变换分析的粒度。OLTP (TP) On-Line Transaction Processing 联机事务处理过程(OLTP) 也称为面向交易的处理过程,其基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,是对用户操作快速响应的方式之一。原创 2024-01-28 20:19:19 · 973 阅读 · 0 评论 -
数据仓库内容分享(七):Flink CDC 实现海量数据实时同步转换
在 Flink CDC 1.x 版本中,如果想实现 exactly-once 同步,需要配合 Flink 提供的 checkpoint 机制,全量阶段没有做切片,则只能在一个 checkpoint 里完成,这会导致一个问题:每个 checkpoint 中间要将这张表的全量数据吐给下游的 writer,writer 会将这张表的全量数据混存在内存中,会对其内存造成非常大的压力,作业稳定性也特别差。保障实时性,因为类似 binlog 的日志文件是可以流式消费的,提供的是实时数据。链路短,组件少,运维友好。原创 2024-01-28 19:56:52 · 2235 阅读 · 0 评论 -
数据仓库内容分享(六):数据仓库层次化设计
数据分层在数据仓库设计中扮演着关键角色,合理的分层设计有助于使整个数据体系更易于理解和使用。然而,目前网络上关于数据分层设计的文章大多只是简单提及,或者缺乏明确而详细的说明,亦或者缺乏可实际实施的方案和具体的示例说明。因此,本文旨在提供一种通用的数据仓库分层方法,具体包括以下内容:1、介绍数据分层的作用。2、提出一种通用的数据分层设计,并明确分层设计的原则。3、通过具体的例子进行说明。4、提出可实际实施的实践建议。接下来,我们将详细讨论这些内容。原创 2024-01-28 11:22:23 · 1108 阅读 · 0 评论 -
数据仓库内容分享(五):企业数据治理之主数据管理
企业应该明确主数据管理的原则和方法,充分考虑各类主数据的划分和标准化,选择合适的主数据开发工具和平台,并在实际应用中进行积极推进主数据使用,以此优化主数据质量、共享和使用价值。主数据(Master Data)指的组织中需要跨系统、跨组织共享的核心业务实体数据,是一个组织中最重要、最核心的数据,是单一、准确、权威的数据来源,是组织运行过程中不可或缺的一部分,一般包括组织信息、人员信息、会计科目、银行账户、客户信息、供应商信息、产品信息等。企业可以根据业务实体来确定主数据,例如客户、供应商、产品、设备等。原创 2024-01-22 12:57:32 · 1211 阅读 · 0 评论 -
数据仓库内容分享(四):滴滴大数据成本治理实践
事业部的成本负责人,领到今年的预算目标,需对目标进行拆分,具体到今年要完成的治理优化数量,同时成本负责人向预算委员会,汇报治理工作的进展。事业部的负责人将拆分后的优化目标派发给各个团队的成本治理接口人,治理接口人根据治理目标,拆分出治理任务,将治理任务分配给资源的归属人,由其完成治理动作。此外,还有维护该产品,所消耗的人力维护成本,这四大块构成了产品的总成本。接下来就可以开展成本治理的工作,基础是元数据的接入,再对元数据进行清洗加工,得到待治理的资源列表,将其打包形成治理工单,通过治理工作台跟踪治理进展。原创 2024-01-22 12:52:34 · 1134 阅读 · 3 评论 -
数据仓库内容分享(三):行式存储VS列式存储
在基于列式存储的数据库中, 数据是按照列为基础的逻辑存储单元进行存储的,一列中的数据在存储介质中以连续存储形式存在。常见的 TP 库,如 Oracle、DB2、MySQL、SQL SERVER 等采用行式存储法(Row-based),在基于行式存储的数据库中, 数据是按照行数据为基础逻辑存储单元进行存储的, 一行中的数据在存储介质中以连续存储形式存在。数据读取时,行存储通常将一行数据完全读出,如果只需要其中几列数据的情况,就会存在冗余列,出于缩短处理时间的考量,消除冗余列的过程通常是在内存中进行的。原创 2024-01-22 12:43:46 · 1380 阅读 · 0 评论 -
数据仓库内容分享(二):大数据平台深化设计方案
业务标准规范:按照政务数据共享交换的纲领,总体设计思路严格遵守政务数据共享交换的规范化、标准化原则。遵循国家政务信息资源管理、交换、共享有关标准及国家政策要求。按照系统建设标准与规范设计设计数据内容、数据分类与编码、精度与标准等。建立统一的技术架构:统一的技术路线、统一的产品支撑、统一的技术支撑、统一的业务支撑,为应用系统提供多层面的支撑架构。建立统一的、标准化的应用集成架构,以约束不同开发商的应用服务接口开发。原创 2024-01-22 10:32:03 · 914 阅读 · 0 评论 -
数据仓库内容分享(一):数据仓库、数据湖、数据中台和湖仓一体
数字化转型浪潮卷起各种新老概念满天飞,数据湖、数据仓库、数据中台轮番在朋友圈刷屏,有人说“数据中台算个啥,数据湖才是趋势”,有人说“再见了数据湖、数据仓库,数据中台已成气候”……企业还没推开数字化大门,先被各种概念绊了一脚。那么它们 3 者究竟有啥区别?别急,先跟大家分享两个有趣的比喻。1、图书馆VS地摊如果把数据仓库比喻成“图书馆”,那么数据湖就是“地摊”。去图书馆借书(数据),书籍质量有保障,但你得等,等什么?等管理员先查到这本书属于哪个类目、在哪个架子上,你才能精准拿到自己想要的书;转载 2024-01-22 10:16:22 · 914 阅读 · 0 评论