数据编排——数据世界中遗失的拼图

我们正处于数据变革的早期阶段。各个组织和机构竞相构建数据驱动的文化精神,同时也在数据驱动的应用程序上开展了大量创新。这些应用程序重塑了我们生活的许多方面,从我们工作的方式到我们被医学诊疗的方式。然而,数据的价值还远没有得到充分利用,创新的速度还可以大大提高。我们认为这其中遗失的关键拼图就是数据编排层。

为了让应用程序高效地访问数据,应用往往需要重新发明轮子,这阻碍了当前的创新步伐。当一个工程师或科学家想要编写一个应用程序来解决问题时,他或她需要花费大量的精力让应用程序高效地访问数据,而不是专注于算法和应用程序的逻辑。这体现在许多场景中:例如,当开发人员希望将应用程序从内部环境迁移到云环境中,或者一个写过Apache Spark应用程序的数据科学家打算编写TensorFlow应用程序等等。事实上,每当应用程序框架、存储系统或部署环境(云或内部环境)发生更改时,开发人员就需要重新设计数据访问方式。独立扩展计算和存储的趋势、对象存储的兴起、混合云和多云的日益流行,这些都进一步加剧了数据访问方面的挑战。

许多人试图通过创建新型的存储系统、先进的计算框架或全新的技术栈来解决与数据访问相关的挑战。然而,历史表明,每隔5到10年,就会出现另一批新的存储系统和计算框架,这并不能从根本上解决数据访问方面的挑战。以存储为例,每个新的存储系统都成为数据环境中的另一个数据筒仓。创建新应用程序或新栈的方法也是如此。

在Alluxio中,我们认为,为了从根本上解决数据访问的挑战,数据世界需要全新一层,我们称之为“数据编排平台”,架构在计算框架和存储系统之间。数据编排平台跨存储系统将数据访问抽象出来,虚拟化所有数据,并通过具有全局命名空间的标准化API将数据呈现给数据驱动的应用程序。同时,它还应该具有缓存功能,以支持快速访问热数据。总之,数据编排平台为数据驱动的应用程序提供了数据可访问性、数据本地性和数据可伸缩性(https://www.alluxio.io/data-orchestration/)。
在这里插入图片描述

做一个类比,数据编排之于数据,就像容器编排之于容器一样。容器编排是一类技术,它使容器能够在任何环境中运行而不受正在运行的应用程序硬件的影响,并确保应用程序按预期运行。类似地,数据编排也是一种技术,它使应用程序的运行能够与计算无关、与存储无关和与云无关。
现在,基于数据编排平台,应用程序开发人员就可以假设数据随时可以访问,而不需要关注数据驻留在何处或存储的特性如何,并将重点放在编写应用程序上。

除了向应用程序开发人员授权外,数据编排平台还为基础设施工程师带来了巨大的价值。它通过在基础设施层为组织机构提供灵活性来避免被某一家供应商绑死。在不同的存储系统(包括云存储)之间进行转换、采用另一个应用程序框架,甚至采用一个混合或多云环境都是可行的,并且不会带来很大的开发成本。在以后的博客中,我们将从这些角度来详细地讨论数据编排的需求和影响。

总之,我们认为,数据编排是数据世界中遗失的拼图。Alluxio是一个数据编排平台的实现,我们诚邀大家加入我们,共创未来!

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值