数据湖 专栏

本文介绍了数据湖的概念,强调其作为企业集中存储各种类型数据的平台,涵盖Hadoop、MPP数据库、DeltaLake等技术在数据湖中的应用,以及SparkSQL在处理DeltaLake中的实践。
摘要由CSDN通过智能技术生成

数据湖 专栏

数据湖是一种在系统或存储库中以自然格式存储数据的方法,它有助于以各种模式和结构形式配置数据,通常是对象块或文件。数据湖的主要思想是对企业中的所有数据进行统一存储,从原始数据(源系统数据的精确副本)转换为用于报告、可视化、分析和机器学习等各种任务的目标数据。数据湖中的数据包括结构化数据(关系数据库数据),半结构化数据(CSV、XML、JSON等),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像、音频、视频),从而形成一个容纳所有形式数据的集中式数据存储。

数据湖从本质上来讲,是一种企业数据架构方法,物理实现上则是一个数据存储平台,用来集中化存储企业内海量的、多来源,多种类的数据,并支持对数据进行快速加工和分析。从实现方式来看,目前Hadoop是最常用的部署数据湖的技术,但并不意味着数据湖就是指Hadoop集群。为了应对不同业务需求的特点,MPP数据库+Hadoop集群+传统数据仓库这种“混搭”架构的数据湖也越来越多出现在企业信息化建设规划中。

数据湖的就是原始数据保存区. 虽然这个概念国内谈的少,但绝大部分互联网公司都已经有了。国内一般把整个HDFS叫做数据仓库(广义),即存放所有数据的地方,而国外一般叫数据湖(data lake)

编号文章
1数据湖—数据湖初识
2数据湖—数据湖再识
3数据湖—Delta Lake 概论
4数据湖—Delta lake 与湖仓一体
5数据湖—Spark SQL Scala版 使用 Delta Lake
6数据湖—Spark SQL Shell 版 使用Delta Lake
7数据湖—Spark SQL SQL 版 使用 Delta Lake
8数据湖—Spark SQL Python 版 使用 Delta Lake
9数据湖—Spark Streaming 使用 Delta Lake
10数据湖—Delta Lake 事务日志
11数据湖—Delta Lake 事务日志实践
12数据湖—Delta Lake 时间旅行
13数据湖—Delta Lake 版本管理
14数据湖—Delta Lake DML 内部原理
15数据湖—Delta Lake 1.0 版本功能预览
16数据湖—Delta Lake Schema 约束与演化
17数据湖—Delta Lake 并发控制
18数据湖—Delta Lake 实践指南
19数据湖—Delta Lake与实时计算
  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值