Vineyard: 开源分布式内存数据管理框架

Vineyard是一个为大数据分析工作流提供内存数据共享的分布式引擎,旨在解决云原生环境中的数据共享效率和任务协同问题。它通过内存映射实现零拷贝数据共享,提供通用数据类型抽象简化计算引擎接入,以及与Kubernetes集成实现数据和任务的协同调度。相比使用HDFS,Vineyard能大幅提升端到端执行效率。
摘要由CSDN通过智能技术生成

Vineyard是一个专为云原生环境下大数据分析场景中端到端工作流提供内存数据共享的分布式引擎,我们很高兴宣布Vineyard在2021年4月27日被云原生基金会(CNCF)TOC接受为沙箱(Sandbox)项目。同时,Vineyard作为GraphScope的底层存储引擎,负责图数据在各个计算引擎之间的共享,提升图计算端到端的整体性能。

项目介绍

现有的大数据分析场景中,对于端到端任务,不同的子任务之间通常使用例如HDFS、S3、OSS这样的分布式文件系统或对象存储系统来共享任务之间的中间数据,这种方式在运行效率和研发效率上存在诸多问题,以下图所示的一个风控作业工作流为例:

​1. 工作流中不同任务之间为了共享中间数据,前一个任务将结果写入文件系统,完成之后,后一个再将文件读出作为输入,这个过程带来了额外的序列化及反序列化、内存拷贝、以及网络、IO的开销,我们从历史任务中观察到有超过60%的任务为此花费了40%以上的执行时间;

2. 对于生产环境,为了高效地解决某一个特定范式的问题往往会引入一个新系统(例如分布式图计算),但这样的系统往往难以直接与工作流中的其他系统无缝衔接,需要很多重复的I

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值