请点击上方蓝字,关注我们哦!
本文将介绍北京一家初创企业 HashData (见原文链接1)构建基于云原生的MPP平台的过程。该企业利用对象存储作为数据持久层,Alluxio作为云中的数据编排层,最终构建了一个原生云高性能MPP共享的体系架构。 HashData是由一群来自Pivotal、Teradata、IBM、Yahoo!等开源数据资深人士于2016年创立的。它的旗舰产品HashData WareHouse(HDW),是为云环境构建的数据仓库服务,具有完全兼容的 Greenplum (见原文链接2)分析接口。HDW独特的多集群共享数据库体系架构,在性能、并发性、灵活性和易用性方面取得了很大突破。和许多传统MPP系统采用的非共享体系架构(计算与存储紧耦合)不同,HDW采用了具有解耦和独立对象存储的共享体系架构。这种体系架构的主要挑战在于性能。与传统的块存储相比,对象存储通常性能较低。在本文中,我们将进一步分析HDW如何利用Alluxio作为数据编排层,以消除对象存储带来的性能损失,同时受益于对象存储的可伸缩性和成本效应。01
为什么使用对象存储服务
如今,对象存储服务(OSS)在原生云架构中一直很重要。正如这篇博客(见原文链接3)所提出的,它提供了更高的可用性、弹性和耐久性,而且成本更低。越来越多的产品和服务支持OSS作为他们的持久文件系统。
节省成本
根据我们的观察,对于许多拥有100TB+数据的用户来说,他们的成本主要来自存储成本,而不是计算成本。一个主要原因是计算完全随需应变,而存储容量在删除数据之前无法回收。因此,当客户考虑各种数据分析选项时,存储成本是一个重要因素。下表为中国全栈ICT服务及解决方案(包括公共云服务)供应商QingCloud(见原文链接4)在PEK3区域的块存储和对象存储的价格对比。OSS的成本大约是单副本块存储的1/4,多副本块存储的1/5。
系统灵活性