ACM SIGCOMM 2023

琴1014

已于 2023-09-15 15:47:19 修改

阅读量1.3k

点赞数

分类专栏： Research Security 文章标签：网络安全安全云计算

于 2023-09-15 15:36:16 首次发布

本文链接：https://blog.csdn.net/qq_45743959/article/details/132878826

版权

Research Security 专栏收录该内容

6 篇文章

订阅专栏

ACM SIGCOMM 2023于2023年9月10 - 14日在美国纽约哥伦比亚大学举行。介绍了国内团队录用的多个议题成果，如提出新型无线传感系统BeamSense、轻量级BGP不间断路由TENSOR等，涉及网络传感、路由、验证、仿真等多个网络技术领域。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

会议议题

ACM SIGCOMM 2023, the 37th edition of the conference series, will be held at Columbia University in New York City, US, September 10 - 14, 2023. The workshops and tutorials will be held on September 10, 2023 and the main conference will take place on September 11 - 14, 2023.

国内团队录用情况如下：

Technical Session 1: Water, Air, Blood

RESEARCH-ARTICLE：Enabling Ubiquitous WiFi Sensing with Beamforming Reports

Authors：Chenhao Wu,Xuan Huang,Jun Huang,Guoliang Xing(University of Hong Kong)

摘要：

Wi-Fi传感系统利用来自广泛部署的Wi-Fi设备的无线信号，实现各种应用的传感。然而，当前的Wi-Fi传感系统严重依赖信道状态信息（CSI）来学习信号传播特性，而CSI的可用性高度依赖于特定的Wi-Fi芯片组。通过城市规模的测量，我们发现CSI在可操作的Wi-Fi设备中的可用性极其有限。在这项工作中，我们提出了一种名为BeamSense的新型无线传感系统，该系统利用压缩波束成形报告（CBR）。由于在操作Wi-Fi设备中广泛支持发射波束成形，CBR通常可以访问，因此可以实现无处不在的传感功能。BeamSense采用新颖的多路径估计算法，可以高效准确地将双向CBR映射到基于固有指纹的多路径通道。我们在几种流行的Wi-Fi设备上实施了BeamSense，并通过微基准测试和三个具有代表性的Wi-Fi传感应用评估了其性能。结果表明，BeamSense能够使现有的基于CSI的感知算法能够与CBR配合使用，具有较高的感知精度和更高的泛化性。

Technical Session 2: BGP Configuration

RESEARCH-ARTICLE：TENSOR: Lightweight BGP Non-Stop Routing

Authors：Congcong Miao(Tencent-0),Yunming Xiao,Ruiqiang Dai(0),Shengli Zheng(0),Jilong Wang(Tsinghua University),Jiwu Bu(0)

摘要：

作为独立的域间协议，BGP在当今的互联网中扮演着重要的角色。它的故障会威胁到网络的稳定性，通常会导致大规模的丢包。因此，保护域间连接免受各种故障中断的不间断路由（NSR）功能对任何自治系统（AS）运营商都至关重要。复制 BGP 和底层 TCP 连接状态是实现 NSR 的关键。但是，由于提供商采用虚拟化网络网关来提高可扩展性和可管理性，因此严重依赖操作系统内核修改的现有NSR解决方案已变得不切实际。

在本文中，我们通过提出TENSOR来解决这个问题，它结合了新颖的无内核修改复制设计和轻量级架构。更具体地说，无内核修改复制设计减轻了对操作系统内核修改的依赖，因此允许网络网关的虚拟化。同时，轻量级虚拟化提供强大的性能保证和提高系统可靠性。此外，TENSOR为影响NSR解的裂脑问题提供了解决方案。通过大量的实验，我们表明，与开源BGP实现相比，TENSOR在实现NSR的同时承担了很少的开销。此外，我们在控制超过 400,31 个 BGP 对等连接的 000 台服务器上的两年运营经验表明，TENSOR 减少了开发、部署和维护成本显著 – 至少分别为 20、5 和 10 倍，同时与支持 NSR 的路由器保持相同的 SLA。

Technical Session 3: Well Tested

RESEARCH-ARTICLE：Beyond a Centralized Verifier: Scaling Data Plane Checking via Distributed, On-Device Verification

Authors：Qiao Xiang(Xiamen University-0),Chenyang Huang(0),Ridi Wen(0),Yuxin Wang(0),Xiwen Fan(0),Zaoxing Liu,Linghe Kong(Shanghai Jiao Tong University),Dennis Duan

摘要：

集中式数据平面验证（DPV）在大型网络中面临严重的可扩展性问题（即，验证器是性能瓶颈和单点故障，需要可靠的管理网络）。在本文中，我们通过引入分布式设备端DPV框架Tulkun来解决DPV的可扩展性挑战。我们的主要见解是，DPV可以转换为有向无环图上的计数问题，可以自然分解为在网络设备上执行的轻量级任务，从而在各种规模和类型的网络中实现快速数据平面检查。有了这种洞察力，Tulkun包括（1）一种声明性的不变规范语言，（2）一个计划器，它采用一种新的数据结构DVNet系统地将全局验证分解为设备上的计数任务，（3）分布式验证消息传递（DVM）协议，它指定设备上的验证器如何有效地传达任务结果以联合验证不变量，以及（4）一种在计划者参与最少的情况下验证不变容错的机制。对真实数据集（WAN/LAN/DC）的广泛实验表明，Tulkun在不到41秒的时间内验证了一个真实的大型数据中心，而其他工具则需要几分钟或长达数十小时，并显示出高达2355×在商品网络设备上以少量开销进行增量验证的80%分位数。

RESEARCH-ARTICLE：DONS: Fast and Affordable Discrete Event Network Simulation with Automatic Parallelization

Authors： Kaihui Gao(Tsinghua University-0),Li Chen,Dan Li(0),Vincentt Liu,Xizheng Wang(0),Ran Zhang,Lu Lu(China Mobile Research institute)

摘要：

离散事件仿真（DES）是网络必不可少的工具从业人员。不幸的是，现有的DES模拟器无法实现在现代网络规模上表现令人满意。最近工作试图通过减少通过新颖的近似技术处理的流量;但是，我们本文认为，现有DES的大部分放缓模拟器是由于它们的底层软件架构。使用来自虚拟世界高通量模拟的想法游戏，本文提出了DES网络的根本性重新设计模拟器 DONS，将数据包级网络仿真的特定领域与面向数据的最新进展相结合设计。DONS 可以自动并行化仿真跨服务器实现高核心利用率、低缓存未命中速率和高内存效率。在相对较弱的基于 ARM 的 ARM 上笔记本电脑（MacBook Air（M1,2020）），DONS可以模拟一秒钟一个 100 Gbps、1024 台服务器的数据中心，只需 22 分钟（加速 21× 与OMNeT++相比）。在基于 CPU 的服务器集群上，DONS 可实现65×的加速比，匹配数量级最近的 GPU 加速深度学习性能估计器，但没有任何准确性损失。

Technical Session 4: Well Optimized

RESEARCH-ARTICLE：BMW Tree: Large-scale, High-throughput and Modular PIFO Implementation using Balanced Multi-Way Sorting Tree

Authors：Yaoru Yi,Zhiyu Zhang (Fudan University)

摘要：

推入先出（PIFO）队列作为一种可编程调度程序已被广泛研究。为了实现准确、大规模和高吞吐量的PIFO实施，我们提出了用于实时数据包分拣的平衡多路（BMW）分拣树。该树高度模块化，插入平衡且具有自治节点的管道友好。

基于它，我们设计了两种简单高效的硬件设计。第一个是基于寄存器的（R-BMW）方案。使用管道，它具有令人印象深刻的高和稳定的吞吐量，即使在更多级别下，理论上也不会降低任何频率。然后，我们建议使用排序处理单元来驱动宝马树（RPU-BMW）以提高可扩展性，其中节点存储在SRAM中，并从RPU动态加载到/关闭。随着宝马树的容量呈指数级增长，大规模只需要几个RPU。

评估表明，当部署在赛灵思 Alveo U200 卡上时，R-BMW 的吞吐量比原始 PIFO 实现提高了 4.8 倍，同时表现出类似的容量。RPU-BMW采用格芯28nm工艺合成，成本适中，芯片面积为0.522%（1.043mm2），片外内存为0.57MB，以支持87Mpps的200k流。据我们所知，RPU-BMW是第一个精确的PIFO实施，支持超过80k的流量，速度高达200Mpps。

RESEARCH-ARTICLE：BitSense: Universal and Nearly Zero-Error Optimization for Sketch Counters with Compressive Sensing

Authors：Rui Ding,Shibo Yang,Xiang Chen,Qun Huang (Peking University)

摘要：

草图算法已广泛用于网络测量，因为它们在有限的资源使用下实现了高精度。它们将测量结果紧凑地存储在固定尺寸的计数器中。但是，由于草图计数器偏向于低值，因此大多数计数器中的较高位仍为零。如此大量的未使用位会损害草图算法所重视的空间效率。不幸的是，缓解该问题的努力要么适用于特定算法，要么会影响准确性。在本文中，我们设计了BitSense，这是一个与现有草图算法集成的新颖优化框架。关键思想是将草图计数器中的较高位视为稀疏向量，并利用压缩传感技术来压缩和恢复计数器。此外，BitSense 提供了一个编程模型，可帮助开发人员轻松实现草图算法，而无需处理压缩和恢复的细节。BitSense提出了一种自动配置参数的方法。从理论上讲，它保证在配置下几乎为零的误差。我们在P4中构建了一个BitSense原型和一个软件平台，并将其与25个草图解决方案集成在一起。大量实验表明，BitSense 显著降低了现有草图解决方案的内存使用量 80%-<>%，同时产生的开销很小，精度下降几乎为零，性能优于五个最先进的优化框架。

Technical Session 5: Congestion Control

RESEARCH-ARTICLE：

Authors：

Technical Session 6: Traffic Engineering

RESEARCH-ARTICLE：FlexWAN: Software Hardware Co-design for Cost-Effective and Resilient Optical Backbones

Authors：Congcong Miao(Tencent-0),Zhizhen Zhong,Ying Zhang,Kunling He(0),Fangchao Li(0),Minggang Chen(0),Yiren Zhao(0),Jilong Wang(Tsinghua University)

摘要：

数据中心间流量的快速增长推动了对WAN容量的需求不断增长，这给昂贵的光网络带来了新的挑战。如今，云提供商依赖于固定的光骨干网，其中所有硬件设备都在刚性频谱网格上运行，导致浪费昂贵的光资源，并且在处理故障时性能不佳。在本文中，我们介绍了 FlexWAN，这是一种新颖的灵活 WAN 基础架构，旨在提供经济高效的 WAN 容量，同时确保对光故障的弹性。FlexWAN通过在光层集成间距可变硬件来实现这一点，使生成的波长能够优化WAN容量的有限频谱资源的利用率。多供应商光骨干网中空间可变硬件的配置带来了与频谱管理相关的挑战。为了解决这个问题，FlexWAN 利用集中式控制器以与供应商无关的方式实现对全网光设备的协调控制。此外，光学层的灵活性引入了新的算法问题。FlexWAN制定了配置WAN容量的问题，目的是最大限度地降低硬件成本。我们评估生产中的系统性能，并分享多年生产经验的见解。与现有的光骨干网相比，FlexWAN可以节省至少57%的转发器，减少36%的频谱使用，同时继续满足现有硬件和光纤部署的8×当今需求。FlexWAN 进一步整合了故障恢复能力，使过载光骨干网的带宽容量增加了 15%

Technical Session 7: Application Analytics

RESEARCH-ARTICLE：Ditto: Efficient Serverless Analytics with Elastic Parallelism

Authors：Chao Jin,Zili Zhang,Xingyu Xiang,Songyun Zou,Gang Huang,Xuanzhe Liu,Xin Jin(Peking University)

摘要：

无服务器计算为数据提供细粒度的资源弹性分析 — 作业可以灵活地扩展每个阶段的资源，而不是在其整个生命周期中坚持使用固定的资源池。由于不同的数据依赖关系和不同的洗牌开销导致服务器内部和服务器间通信，最佳并行度（DoP）每个阶段因运行时条件而异。

我们介绍Ditto，一个用于无服务器分析的作业调度程序，它利用细粒度资源弹性，可优化作业完成时间（JCT）和成本。同上的关键思想是使用新的调度粒度 — 阶段组 — 将并行配置与函数放置。同上，将阶段捆绑到基于其阶段组的阶段组中数据依赖关系和 IO 特征。它利用并行化时间确定并行度配置的阶段特征，以及优先放置具有大随机流量的舞台组，以便这些组中的阶段可以利用零拷贝服务器内通信高效洗牌。我们构建了同上系统的原型并对其进行了评估具有各种基准测试工作负载。实验结果表明，同上，JCT的性能比现有解决方案高出2.5×高达1.8 成本为<>.<>×。

RESEARCH-ARTICLE：Network-Centric Distributed Tracing with DeepFlow: Troubleshooting Your Microservices in Zero Code

Authors：Junxian Shen,Han Zhang,Yang Xiang,Xinrui Li(Tsinghua University),Yunxi Shen(0),Zijian Zhang(0),Yongxiang Wu(0),Xia Yin(0),Jilong Wang(0),Mingwei Xu(0),Yahui Li(0)

摘要：

微服务变得越来越复杂，给传统的性能监控解决方案带来了新的挑战。一方面，微服务的快速发展给现有分布式跟踪框架的使用和维护带来了沉重的负担。另一方面，复杂的基础设施增加了网络性能问题的可能性，并在网络侧产生更多的盲点。在本文中，我们介绍了DeepFlow，这是一个以网络为中心的分布式跟踪框架，用于对微服务进行故障排除。DeepFlow 通过以网络为中心的跟踪平面和隐式上下文传播提供开箱即用的跟踪。此外，它消除了网络基础设施中的盲点，以低成本的方式捕获网络指标，并增强了不同组件和层之间的关联。我们通过分析和经验证明，DeepFlow 能够以可忽略不计的开销定位微服务性能异常。DeepFlow已经为超过71家公司识别了超过26个关键性能异常，并已被数百名个人开发人员使用。我们的生产评估表明，DeepFlow 能够为用户节省数小时的仪器工作，并将故障排除时间从几个小时缩短到几分钟。

Technical Session 8: On Inference

RESEARCH-ARTICLE：Janus: A Unified Distributed Training Framework for Sparse Mixture-of-Experts Models

Authors：Juncai Liu(Tsinghua University-0),Yimin Jiang,Jessie Hui Wang(0)

摘要：

将模型扩展到大尺寸以提高性能引领了深度学习的趋势，稀疏激活的混合专家（MoE）是一种很有前途的模型扩展架构。然而，在现有系统中训练MoE模型是昂贵的，主要是由于层之间的全对多通信。

全对多通信源于以专家为中心的范式：将专家留在原地并交换中间数据以提供专家。我们提出了以数据为中心的新型范式：将数据保留在原地并在GPU之间移动专家。由于专家的规模可能小于数据的大小，因此以数据为中心的范式可以减少通信工作量。基于这种洞察力，我们开发了Janus。首先，Janus支持细粒度异步通信，这可以重叠计算和通信。Janus通过在同一台机器中共享获取的专家，实现分层通信以进一步减少跨节点流量。其次，在调度“获取专家”请求时，Janus实施拓扑感知优先级策略，以有效地利用节点内和节点间链路。最后，Janus允许预取EA系统，这允许下游计算在上一步完成后立即开始。

在32-A100集群上进行评估，与当前的MoE培训系统相比，Janus可以将流量减少多达16×并实现高达2.06×的加速。

Technical Session 9: Quality Experiences

RESEARCH-ARTICLE：

Authors：

Technical Session 10: Equity

RESEARCH-ARTICLE：

Authors：

Technical Session 11: Multiple Paths

RESEARCH-ARTICLE：CellFusion: Multipath Vehicle-to-Cloud Video Streaming with Network Coding in the Wild

Authors：Yunzhe Ni(Alibaba Cloud,Hangzhou),Chenren Xu(Peking)

摘要：

本文介绍了CellFusion，这是一个专为从车辆到云端的高质量实时视频流而设计的系统。它利用了多路径 QUIC 传输和网络编码的创新组合。CellFusion超越了单个蜂窝运营商的限制，使用独特的最后一英里覆盖，将多个蜂窝网络集成到单个统一的云连接中。通过使用车载客户端设备（CPE）和边缘云代理服务器，可以实现这种集成。

为了有效处理不稳定的蜂窝连接，在车辆移动时容易出现强烈的突发损失和意外的延迟峰值，CellFusion引入了XNC。这种基于网络编码的创新传输解决方案可实现高效且有弹性的多路径传输。XNC 旨在同时实现低延迟、最小流量冗余和降低计算复杂性。CellFusion本质上是安全和透明的，不需要修改连接到它的车辆应用程序。

我们在 100 辆自动驾驶汽车上测试了 CellFusion，并在 50 个 CDN PoP 上运行我们的云原生后端。通过广泛的道路测试，我们发现 XNC 在第 71 个百分位数处将视频数据包延迟降低了 53.99%，而 5G 则减少了 30G。在 66Mbps 时，CellFusion 的视频失速率降低了 11.80% ∼ 62.10%，而最先进的多路径传输解决方案的流量冗余不到 <>%。

RESEARCH-ARTICLE：XRON: A Hybrid Elastic Cloud Overlay Network for Video Conferencing at Planetary Scale

Authors：Bingyang Wu(Peking),Kun Qian(Alibaba)

摘要：

质量和成本是视频会议服务的两个关键考虑因素。视频会议提供商在选择网络层时面临两难境地建立他们的基础设施 — 依赖互联网链接的视频会议效果不佳质量，而使用高级链接会带来过高的成本。

我们介绍了XRON，这是一种用于我们星球规模的混合弹性云叠加网络视频会议服务。XRON与以前的覆盖网络不同，具有两个独特的功能。首先，XRON是一种混合叠加层，它利用了两者互联网链接和高级链接，以实现高质量 和低成本。其次，XRON利用弹性云资源进行自适应扩展其容量基于实时需求。 XRON的数据平面结合了主动探测和被动跟踪，用于可扩展的链路状态监控，使用基于异构双向链路质量的非对称转发，并在没有控制平面参与的情况下快速响应突然的链路退化。 XRON的控制平面基于应用知识预测视频流量，并使用可扩展的算法计算全局转发路径和反应计划。大规模生产部署表明XRON减少了视频失速率和不良音频流畅度分别提高了 77% 和 65.2%，分别与仅使用互联网链接相比，并降低了成本 4.73×，与仅使用高级链接相比。

Technical Session 12: Video Analysis

RESEARCH-ARTICLE：ZGaming: Zero-Latency 3D Cloud Gaming by Image Prediction

Authors：Jiangkai Wu(Peking University-0)Yu Guan(0),Qi Mao(Communication University of China),Yongrui Cui(Tsinghua University)

摘要：

在云游戏中，交互式延迟是用户体验中最重要的因素之一。虽然可以通过边缘缓存和拥塞控制等典型的网络基础设施来减少交互式延迟，但当前云游戏平台的交互式延迟仍远未达到用户的满意度。为了消除传统云游戏系统中的交互延迟，该文提出了一种基于图像预测的新型三维云游戏系统ZGaming。为了提高预测图像的质量，我们提出了（3）质量驱动的1D块缓存以减少“孔”伪影，（3）服务器辅助的LSTM预测算法，以提高动态前景对象的预测精度，以及（2）预测性能驱动的自适应比特率策略，优化预测图像的质量。在真实世界云游戏网络条件下的实验表明，与现有方法相比，ZGaming在提供相同视频质量时将交互延迟从3 ms降低到23 ms，或在保持交互延迟为0 ms时将视频质量提高5.4 dB。

RESEARCH-ARTICLE：PacketGame: Multi-Stream Packet Gating for Concurrent Video Inference at Scale

Authors：Mu Yuan,Lan Zhang,Xuanke You,Xiang-Yang Li(University of Science and Technology of China)

摘要：

视频分析工作负载的资源效率对于边缘节点和云集群上的大规模部署至关重要。最近的先进系统受益于视频压缩、帧过滤和深度模型加速等技术。然而，根据我们在 1000 多台摄像机上运行实时视频分析系统的一年经验，我们发现了以前被忽视的端到端并发瓶颈：视频解码。为了支持大规模的并发视频推理，在这项工作中，我们研究了一项名为视频数据包门控的新任务，该任务在运行解码器之前有选择地过滤数据包。我们提出了一种新颖的视频分组多视图嵌入方法，并提出了兼具理论性能保证和实际系统设计的PacketGame。在公共数据集和真实系统上的实验表明，与原始工作负载相比，PacketGame 节省了 52.0-79.3% 的解码成本，并实现了 2.1-4.8× 的并发性。与四种最先进的互补方法的比较表明，PacketGame在端到端并发方面具有优势。

Technical Session 13: Data Center Programming

RESEARCH-ARTICLE：Achelous: Enabling Programmability, Elasticity, and Reliability in Hyperscale Cloud Networks

Authors：Chengkun Wei(Zhejiang University)

摘要：

云计算见证了巨大的增长，促使企业迁移到云以实现可靠的按需计算。在单个虚拟私有云（VPC）中，实例（例如虚拟机、裸金属和容器）的数量已达到数百万个，这给支持数百万个实例带来了挑战，网络位置与底层硬件解耦，高弹性性能和高可靠性。然而，学术研究主要集中在高速数据平面和虚拟化路由基础设施等特定问题上，而现有的工业网络技术无法充分应对这些挑战。

在本文中，我们报告了阿里云网络虚拟化平台 Achelous 的设计和体验。Achelous由三个关键设计组成，以增强超大规模VPC：（i）基于数据平面和控制平面协同设计的新型分层编程架构; （ii）弹性性能策略和分布式ECMP方案，分别用于无缝向上和向外扩展;（iii）运行状况检查方案和透明的虚拟机实时迁移机制，可确保故障转移期间有状态的流连续性。评估结果表明，Achelous 在单个 VPC 中可扩展到 1,500,000 个具有弹性网络容量的虚拟机，并缩短了 25× 的编程时间，99% 的更新可在 1 秒内完成。对于故障转移，它在 VM 实时迁移期间缩短了 22.5× 的停机时间，并确保 99.99% 的应用程序不会遇到停滞。更重要的是，三年的运行经验证明了Achelous的可维护性和独立于任何特定硬件平台的多功能性。

RESEARCH-ARTICLE：Klotski: Efficient and Safe Network Migration of Large Production Datacenters

Authors：Yihao Zhao(Peking University)

摘要：

本文介绍了元维基的生产网络迁移系统。我们先介绍一下网络大规模生产数据中心网络（DCN）的迁移问题。一个 Meta 的网络迁移任务涉及每个数据中心多达数百台交换机和数万条电路，以及涉及现场物理部署工作，可能需要数月。我们描述现实世界的迁移挑战，涵盖复杂且不断发展的 DCN 架构和操作限制。我们在数学上形式化了以下问题：生成高效安全的迁移计划，并利用固有的对称性以及 DCN 拓扑的位置以修剪搜索空间。我们设计了一个与排序无关的紧凑拓扑表示，以消除冗余满足性检查，并应用 A* 算法与特定域的优先级功能，以找到最佳计划。评估一系列生产迁移案例的结果表明，Klotski 减少了与之前相比，找到最佳迁移计划的时间缩短了 381× 解决方案。我们希望通过引入问题并分享我们的部署经验中，这项工作可以为网络迁移提供有用的上下文现实世界并激发未来的研究。

RESEARCH-ARTICLE：ClickINC: In-network Computing as a Service in Heterogeneous Programmable Data-center Networks

Authors：Yong Feng(Tsinghua University)

摘要：

网络内计算（INC）已经发现了许多用于提高性能或降低成本的应用。然而，由于设备异构、应用多样、网络类型多，应用开发者在不影响正常网络功能的情况下，有效利用可用网络资源并获得可预测的收益既麻烦又容易出错。以前的工作更多地面向网络运营商而不是应用程序开发人员。我们开发 ClickINC 以使用统一和自动化的工作流程简化 INC 编程和部署。ClickINC 为 INC 开发人员提供了模块化编程抽象，无需考虑设备状态和网络拓扑。我们描述了 ClickINC 框架、模型、语言、工作流和相应的算法。在仿真器和原型系统上的实验证明了其可行性和优势。

Technical Session 14: Telemetry

RESEARCH-ARTICLE：OmniWindow: A General and Efficient Window Mechanism Framework for Network Telemetry

Authors：Haifeng Sun,Qun Huang(Peking University)

摘要：

最近的网络遥测解决方案通常以可编程交换机为目标，以实现高性能和网络内可见性。他们将数据包流划分为窗口，然后应用各种流处理技术来汇总流级统计信息。然而，现有的研究侧重于每个窗口内的测量。由于可编程开关的资源限制，窗口管理仍然是一个缺失的部分。在本文中，我们提出了OmniWindow，一个通用且高效的窗口机制框架。OmniWindow 将原始窗口拆分为细粒度的子窗口，以便可以将子窗口合并到各种窗口类型中。为了应对资源限制，OmniWindow 精心设计了其数据平面内存布局，并提出了一种窗口同步方法。它还采用协作架构，可以在有限的时间内在子窗口中收集和重置有状态数据。我们在Tofino上制作了OmniWindow的原型。我们将 OmniWindow 整合到 SOTA 查询驱动的遥测系统和八种基于草图的遥测算法中。我们的实验表明，OmniWindow使这些遥测解决方案能够实现比传统窗口机制更高的精度。

RESEARCH-ARTICLE：ChameleMon: Shifting Measurement Attention as Network State Changes

Authors：Kaicheng Yang,Yuhan Wu,Hanglong Lv(Peking University)

摘要：

网络测量对于许多网络应用至关重要。流量级测量任务主要有两种：1）数据包累积任务和2）丢包任务。在实践中，这两种任务经常需要同时进行，但现有的工作很少同时处理这两种任务。在本文中，我们设计了ChameleMon来同时支持这两种任务。ChameleMon的关键设计是通过两个动态维度，随着网络状态的变化转移测量注意力：1）在两种任务之间动态分配内存;2）动态监控重要性的流动。为了实现密钥设计，我们提出了一种关键技术，利用费马小定理设计了一个灵活的数据结构，即FermatSketch。FermatSketch是可分割的，可加的和减法的，支持两种任务。我们已经在具有胖树拓扑的测试台上实现了变色龙原型。我们进行了广泛的实验，结果表明，ChameleMon支持两种低内存/带宽开销的任务，更重要的是，它可以随着网络状态的变化自动转移测量注意力。

Technical Session 15: All Layers Considered

RESEARCH-ARTICLE：Regional IP Anycast: Deployments, Performance, and Potentials

Authors：Minyuan Zhou(Nanjing University)

摘要：

最近的研究表明，终端系统的流量可能会到达全球 IP 任播系统中的远距离任播站点，从而导致高延迟。为了解决这个问题，一些私有和公共 CDN 已经实现了区域 IP 任播。此方法涉及将内容托管站点划分为多个地理区域，为每个区域宣布唯一的 IP 任播前缀，以及利用 DNS 和 IP 地理位置将客户端定向到其相应地理区域中的 CDN 站点。在这项工作中，我们旨在了解区域任播 CDN 如何对其站点进行分区并映射其客户的客户端，以及区域任播 CDN 与其全球任播对应项相比的性能。我们研究了目前部署区域 IP 任播的两个 CDN（Edgio 和 Imperva）的部署策略和性能。我们发现Edgio和Imperva都按照大陆或国家边界划分他们的网站和客户。此外，我们将Imperva的区域任播CDN中的客户端延迟分布与其类似规模的DNS全球任播网络进行了比较，同时考虑并缓解了两个网络之间的相关部署差异。我们发现，区域任播可以有效缓解全球IP任播中BGP将客户端流量路由到远方CDN站点的病理。但是，DNS 映射效率低下（其中 DNS 返回未覆盖客户端低延迟 CDN 站点的次优区域 IP 任播地址）可能会损害区域任播的性能。最后，使用 Tangled 测试平台，我们演示了使用基于延迟的区域分区方法的区域 IP 任播的性能优势。结果表明，与全局任播配置相比，不同地理区域中的客户端的第 90 个百分位数客户端延迟降低了 58.7% 至 78.6%。

Technical Session 16: Caching and Provisioning

RESEARCH-ARTICLE：P4LRU: Towards An LRU Cache Entirely in Programmable Data Plane

Authors：Yikai Zhao,Wenrui Liu,Fenghao Dong,Tong Yang,Zirui Liu(Peking University)

摘要：

数据平面缓存是可编程交换机、智能 NIC 和 DPU 等众多网络设备中的关键功能，其可编程性和内存访问容量通常受到限制。因此，大多数现有数据平面缓存依赖于简单且低效的替换策略。本文将在可编程数据平面中引入LRU（一种近乎最优的替代策略）。我们首先探讨传统实现 LRU 不适合在数据平面上部署的原因。因此，我们提出了P4LRU，这是LRU实现的流水线优化版本。在P4LRU的基础上，我们构思了三种不同的网络内系统——LruTable、LruIndex和LruMon，并成功地将它们应用于Tofino交换机。我们彻底的实验试验表明，与这三个系统中现有的数据平面缓存相比，P4LRU 提供了显着的性能提升。我们已经在 GitHub 上开源了这三个系统的源代码。

RESEARCH-ARTICLE：LEED: A Low-Power, Fast Persistent Key-Value Store on SmartNIC JBOFs

Authors：Hua Zhang(Beihang University)

摘要：

最近出现的低功耗高吞吐量可编程存储平台 - SmartNIC JBOF（只是一堆闪存）——促使我们重新思考集群架构和系统堆栈，以实现节能的大规模数据密集型工作负载。与使用服务器 JBOF 或嵌入式存储节点阵列的传统系统不同，SmartNIC JBOF 的引入极大地改变了集群计算、内存和 I/O 配置。这种极其不平衡的架构使得先前的系统设计理念和技术要么无效，要么无效。

本文介绍了LEED，这是一种基于SmartNIC JBOF阵列的分布式、复制和持久性键值存储。我们应对智能网卡 JBOF 带来的独特挑战的关键理念是：用过多的 I/O 带宽换取稀缺的 SmartNIC 核心计算周期和内存容量;尽早做出调度决策，简化请求执行流程。LEED系统地改进了软件堆栈，并提出了跨每个SSD，JBOF内部和JBOF之间的技术。我们基于 Broadcom Stingray 的原型系统在每焦耳对 4B/2KB 键值对象的请求数方面，比使用强大的服务器 JBOF 和笨拙的嵌入式存储节点的现有解决方案高出 3.8×/17.5× 和 19.1×/256.1×。

Technical Session 17: Offloading

RESEARCH-ARTICLE：Understanding the Micro-Behaviors of Hardware Offloaded Network Stacks with Lumina

Authors：Xin Jin(Peking Univeristy)

摘要：

硬件卸载网络堆栈在现代数据中心中被广泛采用，以满足对高吞吐量、超低延迟和低 CPU 开销的需求。为了充分利用其卓越的性能，用户需要深入了解他们的行为。尽管在测试软件网络堆栈方面付出了很多努力，但由于硬件网络堆栈的内核旁路特性和高性能，硬件网络堆栈给测试工具带来了独特的挑战。

在本文中，我们介绍了Lumina，一种测试硬件网络堆栈正确性和性能的工具。Lumina利用网络可编程性以线速模拟各种网络场景。通过用户友好的界面，Lumina使开发人员能够注入确定性事件，从而促进精确和可重复测试的开发。鉴于可编程网络设备的资源和灵活性有限，我们将所有数据包镜像到专用服务器并转储它们以进行离线分析。我们利用Lumina测试来自NVIDIA和Intel的四个RDMA NIC，并识别可能显着降低性能或误导网络运营的错误。Lumina还使我们能够捕获公共文档和规范中缺失或未明确描述的意外微行为。供应商已经确认了我们发现的关键错误，并将在未来版本中包括错误修复。

参考：sigcomm2023官网