数据沼泽
大数据领域在短短的时间内爆炸了。 仅在2013年,“大数据”一词才被添加到《牛津英语词典》的页面中。 不到五年之后,每天就会生成2.5亿个字节的数据。 响应于创建如此大量的原始数据,许多企业认识到需要提供重要的数据存储解决方案,例如数据仓库和数据湖,而无需考虑太多。
从表面上看,更现代化的数据湖为渴望将分析付诸实践的组织提供了无限可能。 它们为那些利用新的变革性数据计划并从不同来源(包括社交,移动,云应用程序和物联网)捕获大量数据的用户提供了一个存储库。 与旧的数据仓库不同,数据湖以其原始格式保存“原始”数据,包括结构化,半结构化和非结构化数据。 直到需要数据时才定义数据结构和要求。
但是,组织在使用数据湖时面临的最常见挑战之一是无法找到,理解和信任他们为获得业务价值或获得竞争优势所需的数据。 那是因为数据可能是乱码(以其原始格式),甚至是冲突的。 当数据科学家想要访问企业数据以进行建模或为分析团队提供见解时,此人将被迫深入数据湖的深处,并从多个来源来的不确定数据集中徘徊。 随着数据成为企业越来越重要的工具,从长远来看,这种情况显然是不可持续的。
需要明确的是,为了使企业有效,高效地最大化存储在数据湖中的数据,他们需要通过实施策略驱