1、什么是数据库?
2、什么是数据仓库?
3、二者有什么关联?
1、数据仓库的定义
数据仓库是一种面向商务智能 (BI) 活动(尤其是分析)的数据管理系统,它仅适用于查询和分析,通常涉及大量的历史数据。在实际应用中,数据仓库中的数据一般来自应用日志文件和事务应用等广泛来源。
数据仓库能够集中、整合多个来源的大量数据,借助数据仓库的分析功能,企业可从数据中获得宝贵的业务洞察,改善决策。同时,随着时间推移,它还会建立一个对于数据科学家和业务分析人员极具价值的历史记录。得益于这些强大的功能,数据仓库可为企业提供一个“单一信息源”。
- 数据仓库的架构
数据仓库的架构取决于企业的需求。通用数据仓库架构具有以下特点:
简单:所有数据仓库都采用同一基本设计,将元数据、概要数据和原始数据全部存储在中央信息库中。信息库一端由数据源馈送信息,另一端则供最终用户访问,以便进行分析、报告和数据挖掘。
通过暂存区简化数据准备:将操作型数据置入数据仓库之前,必须首先进行清理和处理。这一步骤可通过编程方式完成,但很多数据仓库会创建一个暂存区来简化数据准备工作。
星型结构:通过在中央信息库和最终用户之间创建数据集市,企业可以对数据仓库进行自定义,灵活满足各种业务线的需求。换言之,准备就绪后,数据不会立即进入数据仓库,而是会被移至适当的数据集市。
沙盒:沙盒可提供一个专有的安全区域,帮助企业快速、非正式地探索新的数据集或新的数据分析方式,而无需遵守或遵循数据仓库的正式规则和协议。
- 数据仓库的进化
数据仓库首次出现于 20 世纪 80 年代末,其最初目的是帮助数据从操作系统“流入”决策支持系统 (DSS)。
早期的数据仓库需要大量冗余:大多数企业为了满足各种用户的需求而采用多个 DSS 环境,虽然各个 DSS 环境使用的数据大部分相同,但通常还是要分别执行数据收集、清理和集成。
而后,随着效率不断提升,数据仓库也从服务传统 BI 平台的信息存储库变成了服务一系列广泛应用(例如运营分析和绩效管理)的分析基础设施。
如今,经过长期迭代,数据仓库取得了长足的发展,企业级数据仓库 (EDW) 能够为企业创造越来越多的价值
- 云数据仓库
云数据仓库使用云技术来提取和存储不同数据源的数据。
原始数据仓库一开始是构建在本地服务器上。现在,这些本地数据仓库仍然拥有很多优势,在许多情况下可以提供更高的治理水平、安全性、数据主权以及较低延迟。然而,本地数据仓库的弹性较低,需要企业通过复杂的预测来确定如何扩展数据仓库,以满足未来需求。另外,本地数据仓库在管理上也非常复杂。
相比之下,云数据仓库可提供以下优势:
提供弹性的可扩展支持,可满足大型或可变计算或存储需求
简单易用
易于管理
节约成本
理想的云数据仓库应当支持完全托管和自治驾驶,确保即使是初学者也只需数次单击操作就能创建和使用数据仓库。有一种简单方法可以迁移到云数据仓库,那就是在符合数据主权和安全要求的数据中心防火墙后面运行本地云数据仓库。
此外,大多数云数据仓库采用“按量计费”模式,可节省更多成本。
- 什么是现代数据仓库
企业中不同用户(例如 IT 部门、数据工程、业务分析和数据科学团队的成员)对数据仓库的需求各不相同。
现代数据架构可有效管理所有数据类型、工作负载和分析,满足这些需求。它包含架构模式以及符合行业优秀实践的必要集成组件。现代数据仓库包括:
融合数据库,可简化所有数据类型的管理并支持多种数据使用方法
自助式数据提取和转换服务
支持 SQL、机器学习、图形和空间处理
多种分析选项,可轻松使用数据而无需移动数据
自动化流程,可简化供应、扩展和管理
现代数据仓库可高效简化数据工作流,任何其他仓库都无法企及。这意味着从分析师、数据工程师到数据科学家和 IT 团队的每一个人都可以更加有效地开展工作和创新,从而推动企业发展,而不会发生不计其数的延迟和复杂性