各行各业的企业都在将数据大规模迁移到云中。Cloudera、Hadoop等本地技术产品长期以来一直受到安装、正常运行时间、性能和可扩展性问题的困扰。要成功使用这些数据堆栈,需要专门的基础架构团队和其他数据专业知识,这很难找到并且非常昂贵。Snowflake、DataProc、AWS EMR等云产品的出现使用户能够减少运营难题并轻松采用创新方法,如数据网格、数据市场和其他资源,从而降低成本并使数据的管理和使用方式民主化。
成功的数据迁移不仅仅意味着将数据从本地迁移到云环境。在“转储和加载”过程中大规模迁移数据和资产很少成功,也永远不会是最佳的。相反,您应该首先评估您的作业和流程清单—识别关键作业并记录其性能特征,从存储库中删除过时的作业和代码,以便仅识别已知的工作资产以进行高效迁移。
接下来,创建数据资产清单—识别活动数据资产及其与其他资产和作业的依赖关系。需要付出大量努力来了解目标云平台架构以及需要实施的平台和功能配置最佳实践,以支持迁移数据的最佳性能、操作和可观察性。它通常涉及重新架构和重构数据布局、转换流和消耗工作负载,以最适合目标环境。数据团队将需要利用云创新并适应新环境的独特功能。云目的地不是终点,而是新旅程的开始。
多维数据可观察性解决方案在您的数据迁移中发挥着关键作用,因为它为迁移提供了一个框架,让您可以自信地成功迁移。
在本篇博客中,我们来看一个Acceldata如何帮助将数据从Hadoop技术迁移到Snowflake的具体案例。
对于成功的云数据迁移,您需要经历概念证明、准备、数据迁移、使用、监控、优化等阶段。每个阶段进一步分为子阶段,可帮助您专注于做出明智决策的不同领域。让我们用一些的细节来看看这些:
概念证明
- Snowflake Trusted Advisor:Acceldata提供的建议可帮助您遵循 Snowflake最佳实践并通过使用检查来评估您的帐户。
- 实施PoC。
- Champion Snowflake:Acceldata提供仪表板和报告,帮助您在组织内支持Snowflake。
- 雪花成本评估:Acceldata提供成本智能仪表板,帮助您制定项目预算/合同决策。
准备
- 关键数据元素识别:Acceldata提供数据使用和分析信息,帮助您决定哪些数据要停用、保留和/或优先考虑您的数据迁移计划。它还可以帮助您设置工作负载的性能基线,以支持Snowflake中的现实性能预期。
- 数据迁移计划/策略:Acceldata可帮助您创建资产清单,以支持迁移候选者的选择并建立基线质量指标。
- Snowflake管理:Acceldata可帮助您按照最佳实践建议配置您的 Snowflake帐户,以使其稳健和安全。
- Snowflake数据布局:Acceldata帮助您了解与集群键、微分区和其他 Snowflak功能。
数据迁移
1.数据摄取最佳实践:Acceldata提供对Snowpipe、COPY命令和其他摄取功能的更深入见解。
2.数据传输。
3.数据协调:Acceldata允许通过比较源数据集和目标数据集来检查迁移数据的完整性。它还可以帮助您对未按预期运行的迁移工作负载执行RCA。
消耗
1.数据发现/分析:Acceldata发现数据资产,了解结构、内容及其关系。
2.构建管道。
3.数据转换。
监控
- 管道监控:Acceldata监控将所有管道连接在一起的数据流以及内部和外部依赖项。它将新的管道转换为可观察的管道,将所有可观察性维度联系在一起。
2.数据测试:Acceldata提供了一种对数据进行断言的方法,然后测试这些断言是否有效。
3.数据质量:Acceldata测量数据质量特征,例如准确性、完整性、一致性、有效性、唯一性和及时性,以及模式/模型漂移等。
4.Snowflake平台监控:Acceldata监控Snowflake平台的成本、管理、使用和性能。
5.事件和警报管理:Acceldata提供了一个用于引发、响应和管理事件的系统。
6.报告:Acceldata提供了以预定义的频率自动运行报告(预建+自定义)并向收件人列表提供信息的方法。
优化
- 成本优化:Acceldata提供了一种探索成本、检测峰值和根本原因、预测成本/合同并推荐降低成本建议的方法。
- 资源调整大小:Acceldata提供有关调整云资源大小以更好地满足工作负载要求的信息。
- 性能优化:Acceldata突出显示异常工作负载,并提供有关优化性能的可能方法的统计数据。