Vineyard是一个专为云原生环境下大数据分析场景中端到端工作流提供内存数据共享的分布式引擎,我们很高兴宣布Vineyard在2021年4月27日被云原生基金会(CNCF)TOC接受为沙箱(Sandbox)项目。同时,Vineyard作为GraphScope的底层存储引擎,负责图数据在各个计算引擎之间的共享,提升图计算端到端的整体性能。
项目介绍
现有的大数据分析场景中,对于端到端任务,不同的子任务之间通常使用例如HDFS、S3、OSS这样的分布式文件系统或对象存储系统来共享任务之间的中间数据,这种方式在运行效率和研发效率上存在诸多问题,以下图所示的一个风控作业工作流为例:
1. 工作流中不同任务之间为了共享中间数据,前一个任务将结果写入文件系统,完成之后,后一个再将文件读出作为输入,这个过程带来了额外的序列化及反序列化、内存拷贝、以及网络、IO的开销,我们从历史任务中观察到有超过60%的任务为此花费了40%以上的执行时间;
2. 对于生产环境,为了高效地解决某一个特定范式的问题往往会引入一个新系统(例如分布式图计算),但这样的系统往往难以直接与工作流中的其他系统无缝衔接,需要很多重复的I