数据仓库技术及应用(数据仓库概述)

本文概述了数据仓库的定义,包括其面向主题、集成、稳定和反映历史变化的特点。重点介绍了数据仓库的架构、云数据仓库的优势以及现代数据仓库的功能,如融合数据库、自助式ETL和AI支持。同时讨论了数据湖的使用场景,以及如何设计和评估数据仓库的需求。
摘要由CSDN通过智能技术生成

数据仓库概述

1.数据仓库的定义

     数据仓库是一种面向商务智能 (BI) 活动(尤其是分析)的数据管理系统,它仅适用于查询和分析,通常涉及大量的历史数据。在实际应用中,数据仓库中的数据一般来自应用日志文件和事务应用等广泛来源。  

    数据仓库能够集中、整合多个来源的大量数据,借助数据仓库的分析功能,企业可从数据中获得宝贵的业务洞察,改善决策。同时,随着时间推移,它还会建立一个对于数据科学家和业务分析人员极具价值的历史记录。得益于这些强大的功能,数据仓库可为企业提供一个“单一信息源”。

一个数据仓库通常包含以下要素:    

  • 一个用于存储和管理数据的关系数据库。 
  • 一个用于分析前数据准备的提取、加载和转换 (ELT) 解决方案。  
  • 统计分析、报告和数据挖掘功能。
  • 用于数据可视化和展现的客户端分析工具。    

    其他更复杂的分析应用通过应用数据科学和人工智能 (AI) 算法或图形和空间功能来生成切实可行的信息,从而支持对数据进行更多类型的大规模分析 企业还可以在一个 MySQL Database 服务中集成集事务处理、实时分析(数据仓库和数据湖)和机器学习功能,消除 ETL(提取、转换、加载)复制的复杂性、延迟、成本和风险。

2.数据仓库的优势

数据仓库之父兼计算机科学家 William Inmon 定义了数据仓库的 4 大特征,这 4 大特征为数据仓库的强大优势奠定了坚实基础。根据定义,数据仓库具有以下特点:    

    面向主题:数据仓库可以高效分析关于特定主题或职能领域(例如销售)的数据。    

    集成:数据仓库可在不同来源的不同数据类型之间建立一致性。    

    相对稳定:进入数据仓库后,数据将保持稳定,不会发生改变。    

    反映历史变化:数据仓库分析着眼于反映历史变化。

数据仓库的架构取决于企业的需求。通过数据仓库架构具有以下特点:

    简单:所有数据仓库都采用同一基本设计,将元数据、概要数据和原始数据全部存储在中央信息库中。信息库一端由数据源馈送信息,另一端则供最终用户访问,以便进行分析、报告和数据挖掘。    

    通过暂存区简化数据准备:将操作型数据置入数据仓库之前,必须首先进行清理和处理。这一步骤可通过编程方式完成,但很多数据仓库会创建一个暂存区来简化数据准备工作。    

    星型结构:通过在中央信息库和最终用户之间创建数据集市,企业可以对数据仓库进行自定义,灵活满足各种业务线的需求。换言之,准备就绪后,数据不会立即进入数据仓库,而是会被移至适当的数据集市。    

    沙盒:沙盒可提供一个专有的安全区域,帮助企业快速、非正式地探索新的数据集或新的数据分析方式,而无需遵守或遵循数据仓库的正式规则和协议。 

3.数据仓库的进化:从数据分析到AI和机器学习

4.云数据仓库

使用云技术来提取和存储不同数据源的数据。

云数据仓库可提供以下优势:    

提供弹性的可扩展支持,可满足大型或可变计算或存储需求    

    简单易用    

    易于管理    

    节约成本

5.现代数据仓库

包含:融合数据库,可简化所以数据类型的管理并支持多种数据使用方法

自助式数据提取和转换服务    

支持 SQL、机器学习、图形和空间处理    

多种分析选项,可轻松使用数据而无需移动数据    

自动化流程,可简化供应、扩展和管理

现代数据仓库可高效简化数据工作流,任何其他仓库都无法企及。这意味着从分析师、数据工程师到数据科学家和 IT 团队的每一个人都可以更加有效地开展工作和创新,从而推动企业发展,而不会发生不计其数的延迟和复杂性。

6.如何设计一个数据仓库?    

首先需要明确业务需求,就业务范围达成一致并拟定概念设计,然后为数据仓库创建逻辑和物理设计。其中,逻辑设计关注对象之间的关系,物理设计则关注如何以最佳方式存储和检索对象。当然,物理设计还包含传输、备份和恢复流程。 任何数据仓库设计都必须解决以下问题:    

    具体的数据内容    

    各数据组内部及相互之间的关系    

    支撑数据仓库的系统环境    

    数据转换类型    

    数据刷新频率

云数据仓库不仅具有本地数据仓库的杰出特性,同时又有云计算的强大优势,例如出色的灵活性、可扩展性、敏捷性和安全性,以及更低的成本。利用云数据仓库,企业可以专注挖掘数据价值,而不必耗费时间和精力去构建、管理相关的硬件和软件基础设施。  

7.我需要 一个数据湖吗?

企业可以使用数据湖和数据仓库来存储来自各种信息源的大量数据。而何时使用数据湖,何时使用数据仓库,取决于具体的数据处理需求。以下是数据湖和数据仓库各自的适用场景:    

数据湖适用于存储大量迥然不同、未经筛选的数据以供未来特定目的使用。从业务线应用、移动应用、社交媒体、IoT 设备等来源捕获的数据将作为原始数据存储在数据湖中,分析人员只有在分析时才获取各种数据集的结构、完整性、集合和格式。当需要低成本地存储多个来源的无格式、非结构化数据时,数据湖是您的理想选择。    

数据仓库专用于数据分析,其处理的对象是已经过数据准备(包括收集、上下文关联和转换)的数据,其目的是基于分析生成洞察。此外,数据仓库还擅长处理来自各种来源的大量数据。当需要利用整个企业中多个来源的历史数据进行分析或高级分析时,数据仓库是您的理想选择。    

参考:https://www.oracle.com/cn/database/what-is-a-data-warehouse/#link1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值