本次参加OSDI18负责的是第十个Session,该Session与网络相关。
本文简要介绍本Session的相关工作,其包括三篇论文,分别描述了将计算向数据中心迁移、利用有限的带宽结合DNN模型做高分辨率的视频传输 以及 将计算向网卡迁移的相关工作。
Splinter: Bare-Metal Extensions for Multi-Tenant Low-Latency Storage
Chinmay Kulkarni, Sara Moore, Mazhar Naqvi, Tian Zhang, Robert Ricci, and Ryan Stutsman, University of Utah
背景、动机与主要工作
在云存储领域,将计算和存储分离的方法已经有较为深入的研究,进一步提升性能遇到了瓶颈。这是因为传统的存储端只支持简单的查询与更新,而在服务器端进一步提升性能只能在极小粒度的操作上挖掘,这在目前单次操作耗费周期已经很小的基础上,提升空间非常有限。将存储服务器上的操作切分的很小虽然能通过优化大幅度提升吞吐率,但是会带来以下问题:
- 在 客户端 与 存储设备 之间有很多无用的数据传输
- 客户端有些计算(如图遍历)必须等待来回的数据传输,才能进一步处理数据
Splinter则是将计算向存储设备迁移,希望通过此解决冗余的数据传输的问题,从而提供不受网络带宽限制的服务质量。总的来说Splinter拥有以下特点: - 功能上:多用户可以动态的上传并安装不受服务器信任的扩展程序到服务器,然后在进行调用。
- 性能上:服务器提供不损害性能的软件层面的隔离,并大幅减少没有必要的round-trip,提供良好的吞吐率与延迟的保证。
从几个问题介绍Splinter的具体工作
下面通过几个问题,初步介绍Splinter的各种特性:
Q: 客户端怎么将扩展的代码发送到服务器端,如何进行远程调用执行?
A: Splinter的流程如下:
- 用户发送利用Splinter支持的语言(RUST的subset)所写的源代码到服务器端。
- 服务器安装(包括静态分析,保证各种安全性)代码,编译至服务器能运行的native code。
- 用户发送请求,调用之前已经安装的扩展代码。
- 服务器执行代码,并在结束后向用户发送处理结果。
Q: Splinter是如何使用最低的成本来隔离不用用户的扩展代码?
A: Splinter使用RUST在静态分析的时候进行隔离。若使用硬件隔离,则会由于服务器频繁地上下文切换导致性能下降。而由于Splinter在用户态运行,为了避免陷入内核态产生上下文切换,Splinter使用了Kernel-bypass的DPDK来避开陷入内核,而键值对的存储与操作由于本身是in-memory的数据库,不需要陷入内核态操作。
Q: Splinter如何在服务器端运行代码?
A