data lake:存储大量原始数据的集中式存储库

“Data Lake”(数据湖)是一个用来存储大量原始数据(structured、semi-structured 和 unstructured data)的集中式存储库,其特点是以原始格式存储,并且可以在未来按需进行处理、分析。


📘 一句话定义:

数据湖是一个可扩展的、低成本的存储系统,用于存放各种类型的数据,供后续分析和处理使用。


🧱 数据湖 vs 数据仓库

特征数据湖(Data Lake)数据仓库(Data Warehouse)
数据类型原始数据(结构化、半结构化、非结构化)结构化数据为主
存储格式原始格式,如JSON、CSV、图像、视频等转换后格式,遵循严格的schema
ETL顺序ELT(先加载再转换)ETL(先转换再加载)
成本相对低,通常用对象存储(如S3)成本较高
查询效率原始数据慢,需要结合计算引擎查询快,适合BI工具
技术架构Hadoop、Spark、AWS S3、Azure Data LakeAmazon Redshift、Snowflake、BigQuery
适用场景大数据分析、机器学习、数据挖掘商业智能、报表、KPI分析

📦 数据湖的核心组件:

  1. 数据存储层:例如 AWS S3、Azure Data Lake Storage、HDFS 等。
  2. 元数据管理:例如 Apache Hive Metastore、AWS Glue Catalog。
  3. 数据处理框架:如 Apache Spark、Presto、Apache Flink。
  4. 安全与访问控制:基于IAM权限、加密机制、访问日志等。
  5. 数据目录与发现工具:如 Apache Atlas、Amundsen 等。

🧠 典型应用场景:

  • 企业级数据整合平台
  • 构建机器学习模型的数据源
  • 日志/传感器/物联网数据分析
  • 多样化数据探索(文本、图像、视频)

🔄 示例数据流过程(ELT):

  1. 数据采集:从数据库、传感器、日志收集数据到数据湖。
  2. 数据存储:原始数据按格式存入对象存储。
  3. 数据编目:用数据目录工具整理元数据。
  4. 数据分析:通过 Spark、Presto、Athena 等工具查询或建模。
  5. 可视化/建模输出:结果送入数据仓库或可视化平台。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值