数据仓库、数据湖、湖仓一体的基本特点

本文探讨了数据仓库、数据湖和湖仓一体的概念及特点。数据仓库侧重高效率、高数据质量和面向主题,数据湖强调保真性、灵活性和可追溯性,而湖仓一体融合两者的优点,提供并发读写、数据管理和原数据访问等功能。
摘要由CSDN通过智能技术生成

本文介绍什么是数据仓库,数据湖,湖仓一体,并简单介绍各自的特点。

1. 数据仓库

数据仓库的英文名为Data Warehouse,简写为DW。它由数据仓库之父比尔·恩门 (Bill Inmon)于1990年提出。数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。它具有以下典型的特点:

  • 高执行效率:数据仓库处理的数据量巨大,且分析周期一般以天为单位,因此对分析的时效性要求相对较高,这就需要它具有高效率的数据存储和处理能力。
  • 高数据质量:进入数据仓库的数据一般会经过数据清洗的环节,因此可能导致数据失真的脏数据会被清除,从而保证数据仓库提供的信息是准确的。
  • 高扩展性:数据仓库的设计和建设一般会考虑未来3-5年的情况。
  • 面向主题:数据仓库中的数据是按照一定的主题域进行组织的。主题是指在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。

传统的数据仓库架构如下图所示:

传统数据仓库的架构
传统数据仓库的架构

2. 数据湖

数据湖的英文名为Data Lake。数据湖是一类存储数据原始格式的系统。它通常是企业中全量数据的单一存储。全量数据包括原始系统所产生的原始数据拷贝以及为了各类任务而产生的转换数据,各类任务包括报表

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值