数据湖在大数据场景下应用和实施方案调研笔记(增强版)

最新推荐文章于 2024-05-27 07:19:23 发布

王知无(import_bigdata)

最新推荐文章于 2024-05-27 07:19:23 发布

阅读量1k

点赞数 1

文章标签：大数据 hadoop 数据库 java 编程语言

原创文章禁止转载。否则追究法律后果。

本文链接：https://blog.csdn.net/u013411339/article/details/119901554

版权

点击上方蓝色字体，选择“设为星标”

回复”面试“获取更多惊喜

在读本文前你应该看过这些：

《我看好数据湖的未来，但不看好数据湖的现在》

《数据湖解决方案关键一环，IceBerg会不会脱颖而出？》

本篇一个总结的增强版。

网上目前关于 Flink 集成 Hudi、IceBerg的资料较少，社区建设不够完善。且因为迭代版本原因，代码过期严重。后面我会专门写一篇Flink连接Hudi、IceBerg等的文章。

炒作概念还是未来趋势？

数据湖是目前比较热的一个概念，许多企业都在构建或者计划构建自己的数据湖。但是在计划构建数据湖之前，搞清楚什么是数据湖，明确一个数据湖项目的基本组成，进而设计数据湖的基本架构，对于数据湖的构建至关重要。关于什么是数据湖？有不同的定义。

Wikipedia上说数据湖是一类存储数据自然/原始格式的系统或存储，通常是对象块或者文件，包括原始系统所产生的原始数据拷贝以及为了各类任务而产生的转换数据，包括来自于关系型数据库中的结构化数据（行和列）、半结构化数据（如CSV、日志、XML、JSON）、非结构化数据（如email、文档、PDF等）和二进制数据（如图像、音频、视频）。AWS定义数据湖是一个集中式存储库，允许您以任意规模存储所有结构化和非结构化数据。

微软的定义就更加模糊了，并没有明确给出什么是Data Lake，而是取巧的将数据湖的功能作为定义，数据湖包括一切使得开发者、数据科学家、分析师能更简单的存储、处理数据的能力，这些能力使得用户可以存储任意规模、任意类型、任意产生速度的数据，并且可以跨平台、跨语言的做所有类型的分析和处理。

关于数据湖的定义其实很多，但是基本上都围绕着以下几个特性展开。

1、数据湖需要提供足够用的数据存储能力，这个存储保存了一个企业/组织中的所有数据。

2、数据湖可以存储海量的任意类型的数据，包括结构化、半结构化和非结构化数据。

3、数据湖中的数据是原始数据，是业务数据的完整副本。数据湖中的数据保持了他们在业务系统中原来的样子。

4、数据湖需要具备完善的数据管理能力（完善的元数据），可以管理各类数据相关的要素，包括数据源、数据格式、连接信息、数据schema、权限管理等。

5、数据湖需要具备多样化的分析能力，包括但不限于批处理、流式计算、交互式分析以及机器学习；同时，还需要提供一定的任务调度和管理能力。

6、数据湖需要具备完善的数据生命周期管理能力。不光需要存储原始数据，还需要能够保存各类分析处理的中间结果，并完整的记录数据的分析处理过程，能帮助用户完整详细追溯任意一条数据的产生过程。

7、数据湖需要具备完善的数据获取和数据发布能力。数据湖需要能支撑各种各样的数据源，并能从相关的数据源中获取全量/增量数据；然后规范存储。数据湖能将数据分析处理的结果推送到合适的存储引擎中，满足不同的应用访问需求。

8、对于大数据的支持，包括超大规模存储以及可扩展的大规模数据处理能力。

综上，个人认为数据湖应该是一种不断演进中、可扩展的大数据存储、处理、分析的基础设施；以数据为导向，实现任意来源、任意速度、任意规模、任意类型数据的全量获取、全量存储、多模式处理与全生命周期管理；并通过与各类外部异构数据源的交互集成，支持各类企业级应用。

不同企业的典型应用

目前在生产上可以用的经验不多，笔者个人在调研技术方案时参考了目前市面上公开的众多资料，供团队在数据架构设计和选型上进行参考。

华为生产场景数据湖平台建设实践

该平台围绕数据分如下三大逻辑模块：

典型数据应用场景按应用场景，对数据流程、处理平台进行的标注：

（绿色）结构化数据通过批处理、虚拟镜像到Hive数据，再通过Kylin预处理将数据储存在Cube中，封装成RESTAPI服务，提供

最低0.47元/天解锁文章

王知无(import_bigdata)

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
数据湖在大数据场景下应用和实施方案调研笔记(增强版)

点击上方蓝色字体，选择“设为星标”回复”面试“获取更多惊喜在读本文前你应该看过这些：《我看好数据湖的未来，但不看好数据湖的现在》《数据湖解决方案关键一环，IceBerg会不会脱颖而出？》本...
复制链接

扫一扫