什么是数据湖?

数据湖是一个存储企业原始数据的大型仓库,支持结构化、非结构化和半结构化数据的处理,而不仅仅限于Hadoop。数据仓库则主要处理结构化历史数据,通常与预定义的模型匹配,用于按需分析。数据湖强调的是数据的原始性和灵活性,为数据分析和挖掘提供更广阔的空间。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据湖(Data Lake)是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。 

目前,Hadoop是最常用的部署数据湖的技术,所以很多人会觉得数据湖就是Hadoop集群。数据湖是一个概念,而Hadoop是用于实现这个概念的技术。

数据仓库

数据湖

主要处理历史的、结构化的数据,而且这些数据必须与数据仓库事先定义的模型吻合。

能处理所有类型的数据,如结构化数据,非结构化数据,半结构化数据等,数据的类型依赖于数据源系统的原始数据格式。非结构化数据(语音、图片、视频等)

数据仓库分析的指标都是产品经理提前规定好的。按需分析数据。(日活、新增、留存、转化率)

根据海量的数据,挖掘出规律,反应给运营部门。

拥有非常强的计算能力用于处理数据。

数据挖掘

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值