数据沼泽_数据湖：只是一片沼泽，没有数据治理和目录

最新推荐文章于 2023-11-27 09:45:00 发布

cxq8989

最新推荐文章于 2023-11-27 09:45:00 发布

阅读量834

点赞数

文章标签：大数据 python java 人工智能机器学习

原文链接：https://www.infoworld.com/article/3290433/data-lakes-just-a-swamp-without-data-governance-and-catalog.html

版权

数据沼泽

大数据领域在短短的时间内爆炸了。仅在2013年，“大数据”一词才被添加到《牛津英语词典》的页面中。不到五年之后，每天就会生成2.5亿个字节的数据。响应于创建如此大量的原始数据，许多企业认识到需要提供重要的数据存储解决方案，例如数据仓库和数据湖，而无需考虑太多。

从表面上看，更现代化的数据湖为渴望将分析付诸实践的组织提供了无限可能。它们为那些利用新的变革性数据计划并从不同来源（包括社交，移动，云应用程序和物联网）捕获大量数据的用户提供了一个存储库。与旧的数据仓库不同，数据湖以其原始格式保存“原始”数据，包括结构化，半结构化和非结构化数据。直到需要数据时才定义数据结构和要求。

但是，组织在使用数据湖时面临的最常见挑战之一是无法找到，理解和信任他们为获得业务价值或获得竞争优势所需的数据。那是因为数据可能是乱码（以其原始格式），甚至是冲突的。当数据科学家想要访问企业数据以进行建模或为分析团队提供见解时，此人将被迫深入数据湖的深处，并从多个来源来的不确定数据集中徘徊。随着数据成为企业越来越重要的工具，从长远来看，这种情况显然是不可持续的。

需要明确的是，为了使企业有效，高效地最大化存储在数据湖中的数据，他们需要通过实施策略驱

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据沼泽_数据湖：只是一片沼泽，没有数据治理和目录

数据沼泽大数据领域在短短的时间内爆炸了。仅在2013年，“大数据”一词才被添加到《牛津英语词典》的页面中。不到五年之后，每天就会生成2.5亿个字节的数据。响应于创建如此大量的原始数据，许多企业认识到需要提供重要的数据存储解决方案，例如数据仓库和数据湖，而无需考虑太多。从表面上看，更现代化的数据湖为渴望将分析付诸实践的组织提供了无限可能。它们为那些利用新的变革性数据计划并从不同来源...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。