数据仓库与数据湖

本文介绍了数据仓库与数据湖的区别,数据湖的兴起源于其对结构化、半结构化和非结构化数据的原生存储能力,以及在使用前不需要预定义数据结构的特点。数据仓库则侧重于处理后的结构化数据,服务于大数据产品开发人员和业务用户。数据湖提供了更高的业务敏捷性和分析质量,避免数据孤岛,支持全面的客户视图。数据湖的架构包括摄取层、洞察层、HDFS、蒸馏层、处理层和统一操作层,允许灵活的数据处理和分析。总结中强调,数据湖促进了不同数据类型的融合,改变了用户对数据的利用方式。
摘要由CSDN通过智能技术生成

一、数据仓库与数据湖的区别

一是存储数据类型不同。数据仓库中存储的主要是结构化数据,对于加载到数据仓库中的数据,首先需要定义数据存储模型。而数据湖以其原生格式保存大量原始数据,包括结构化的、半结构化的和非结构化的数据,并且在使用数据之前,不对数据结构进行定义。

二是数据处理模式不同。数据仓库是高度结构化的架构,数据在清洗转换之后才会加载到数据仓库,用户获得的是处理后数据。而在数据湖中,数据直接加载到数据湖中,然后根据分析的需要再处理数据。

三是服务对象不同。从用户差异上来看,数据仓库适合企业中大数据产品开发人员和业务用户。而数据湖最适合数据分析师或数据科学家,他们直接基于数据沙箱做自由探索和分析,这些人要求有技术背景,会写代码或熟悉SQL。

二、为何选择数据湖

  1. 随着存储引擎的出现,Hadoop让存储不同的信息变得更加容易。需要使用数据湖将数据建模到企业范围的模式中。

  2. 随着数据量,数据质量和元数据的增加,分析质量也会提高。

  3. 数据湖提供业务敏捷性。

  4. 算法可用于进行有利可图的预测。

  5. 没有数据孤岛结构。Data Lake提供360度的客户视图,使分析更加健壮。

三、数据胡架构

下图显示了Business Data Lake的体系结构。较低级别表示大部分处于静止状态的数据,而较高级别表示实时交易数据。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值