增强数据湖策略的技巧

随着各组织努力应对如何有效地管理海量和多样化的大数据库,数据湖越来越被视为一种聪明的方法。然而,虽然该模型可以提供传统企业数据管理体系结构中缺乏的灵活性和可伸缩性,但数据湖也引入了一组新的集成和治理挑战,这些挑战可能会阻碍成功。

数据湖泊的力量和潜力

由于云和Hadoop这样的大数据技术的兴起,数据湖为组织提供了一种以成本效益高的方式存储来自无数源的几乎无限数量的结构化和非结构化数据,而不考虑将来如何利用这些数据。由于其本质和自助商务智能能力,数据湖还鼓励更广泛的非商业分析师用户进行实验和数据探索。根据TDWI研究进行的调查85%的受访者认为数据湖是解决他们面临的挑战的一个机会,他们试图管理充斥着传统关系数据库的数据。此外,TDWI调查发现,人们正在追求数据湖的各种好处和用例,其中最突出的是高级分析(49%)和数据发现(49%)。

尽管这项技术具有强大的力量和潜力,但如果各组织在缺乏一致和精心规划的战略的情况下接近数据湖,它们很可能会遇到全新的数据管理和数据集成难题。传统的数据集成解决方案,包括企业服务总线(ESB)、提取、转换和加载(ETL)工具以及自定义代码,都无法管理结构化和非结构化数据的体积和变化,也无法有效地处理无模式的数据存储或处理实时数据流。考虑到这些注意事项,坚持以下最佳实践可以确保数据池的顺利展开和更有效的迁移和集成计划:

  • 接受数据治理。是的,数据湖是灵活的、非结构化的,但是如果不关注正式的治理实践,它就会迅速变成一个难以导航、无法管理的数据沼泽。关键是通过基于策略的数据治理建立控制,由合格的数据管理员提供帮助,并强制执行元数据要求,这将确保用户能够查找数据并优化查询。自动元数据创建的设计是确保一致性和准确性的一种方法。

  • 以带区域的治理为基础。数据湖中的数据可以通过函数逻辑或物理地分离,这有助于保持环境的有序性。虽然这种策略有很多方法,但一些专家建议,在短期数据被摄入之前,先保留一个区域,另一个用于原始数据,如传感器数据或weblog,然后是经过高质量例程和验证的可信数据区,从而可以成为其他下游系统的来源。

  • 评估更现代的集成方法。现有的数据集成解决方案(如ESB和ETL工具)不能满足数据池的独特需求,包括实时导入和导出数据以及处理非结构化数据的需求,而非结构化数据的变化速度往往很快。相比之下,新的数据集成方法的目的是在没有原生层次结构的情况下处理大量数据,许多方法提供预先构建的连接器,使“公民开发人员”能够在不依赖IT的情况下处理其中的一些工作。

  • 相应地增加工作人员。很难找到合格的数据仓库专家或商业智能分析师,但大数据和伴随的分析需求将技能设置水平提高了一个档次。考虑到像这样的技术的相对新颖性Hadoop,大多数组织都没有在该学科或其他相关能力方面受过培训的专家,例如数据流技术,如Flume和火花。为确保人才的适当组合,信息技术组织应确定能够接受一些新兴技能培训的高绩效人员,并在适当的时候和任何地方引进外部合同专家。

数据湖可以帮助组织兑现大数据分析的承诺,挖掘洞察力,推动数据驱动的创新。尚未新模式需要坚持治理和新的集成实践,以确保旅程顺利,而不是沼泽。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值