1、Unlocking ECMP Programmability for Precise Traffic Control 解锁ECMP可编程性以实现精确流量控制
ECMP(等成本多路径)已成为数据中心的一项基本机制,它根据其哈希值将流量沿多条等价路径进行分发。随机化分发针对整体情况进行了优化,将负载随时间分散到各个流量上。然而,存在一类重要的精确流量控制(PTC)任务与 ECMP 的随机性相冲突。例如,如果终端主机感知到其流量正在通过一个有问题的交换机/链路,它通常需要在修复措施推出之前更改它们的路径。使用随机哈希,现有解决方案不得不修改流元组;由于哈希机制未知且在不同交换机/供应商之间有所不同,可能需要多次尝试才能获得一条新路径。存在许多其他类似的情况,其中精确和及时的反应对网络至关重要。
我们提出了可编程 ECMP(P-ECMP),一种编程模型、编译器和运行时,它提供精确的流量控制。P-ECMP 利用了一个常被忽视的特性,即 ECMP 组,它允许一组受约束的功能,但这些功能对于我们的任务来说仍然足够表达。运营商提供其拓扑和策略的高级描述,我们的编译器为每个交换机生成 PTC 配置。终端主机可以精确且快速地重新配置特定流量以使用不同的 PTC 策略,从而解决一系列重要的用例。我们使用大规模模拟评估了 P-ECMP,并将一个用例部署到一个真实世界的数据中心,该数据中心服务于实时用户流量。
2、MeshTest: End-to-End Testing for Service Mesh Traffic Management MeshTest:服务网格流量管理的端到端测试
我们介绍了 MeshTest,这是第一个用于服务网格流量管理的端到端测试框架。MeshTest 的关键思想是自动生成具有端到端语义的输入配置,然后在每个输入上创建真实的测试请求套件。存在两个技术挑战。首先,服务网格配置的输入空间很大且复杂。输入配置需要精心编排以形成端到端的服务流路径。其次,抽象的输出网络行为不能直接检查其正确性,我们需要生成一组能够检查可能行为的真实请求。为了应对这些挑战,我们对服务网格中的流量管理服务流进行建模,并提出了一种新的服务流探索技术来枚举输入配置中所有可能的配置资源和它们之间的交互。我们设计并实现了 MeshTest,它包含一个基于服务流探索的自动输入配置生成器和一个利用形式化方法生成测试请求套件的服务网格预言机。 MeshTest 在两个流行的服务网格系统 Istio 和 Linkerd 中发现了 23 个新错误(19 个已确认和 10 个已修复)。
3、Preventing Network Bottlenecks: Accelerating Datacenter Services with Hotspot-Aware Placement for Compute and Storage 防止网络瓶颈:通过热点感知放置计算和存储来加速数据中心服务
数据中心网络热点,定义为持续高利用率的链路,可能导致性能瓶颈。在这项工作中,我们研究了谷歌数据中心网络中的热点。我们发现这些热点最常出现在 ToR 交换机,并且可以持续数小时。它们主要由带宽供需不平衡引起,这主要是由于网络密集型服务的高需求,或者计算/存储升级快于 ToR 带宽升级导致需求超过可用带宽。加剧这个问题的是数据中心计算和存储调度器带宽无关的任务/数据放置。我们量化了热点的性能影响,发现它们可以使某些分布式应用的端到端延迟相对于低利用率水平降低 2 倍以上。最后,我们描述了我们部署的简单改进。在我们的集群调度器中,添加了热点感知的任务放置,将热点 ToR 数量减少了 90%;在我们的分布式文件系统中,添加了热点感知的数据放置,将 p95 网络延迟降低了 50%以上。 虽然拥塞控制、负载均衡和流量工程可以有效地利用路径进行固定放置,我们发现热点感知放置——将任务和数据放置在可用带宽更高的 ToRs 下——对于实现始终如一的良好性能至关重要。
4、Enhancing Network Failure Mitigation with Performance-Aware Ranking 通过性能感知排序增强网络故障缓解
云服务提供商在其数据中心安装缓解措施以减少网络故障的影响。现有的网络缓解系统依赖于简单的本地标准或全局代理指标来确定最佳操作。在本文中,我们展示了通过直接优化端到端流级指标并全面分析操作,我们可以支持更广泛范围的操作并选择更有效的缓解措施。为此,我们开发了新的技术,以快速估计不同缓解措施的影响,并以高保真度对它们进行排序。我们对大型云服务提供商的事故结果进行了测试,显示在流完成时间和吞吐量方面有数个数量级的改进。我们还展示了我们的方法可以扩展到大型数据中心。
5、One-Size-Fits-None: Understanding and Enhancing Slow-Fault Tolerance in Modern Distributed Systems 通用尺寸不适合任何情况:理解和增强现代分布式系统中的慢故障容错
近期研究表明,各种硬件组件在规模扩大时表现出故障缓慢的行为。然而,分布式软件对这种缓慢故障的容忍特性仍然缺乏了解。本文提出一项全面研究,调查现代分布式软件中缓慢故障容忍的特性及当前实践。我们关注缓慢故障本质上的细微特性。我们开发了一个测试流程,以系统地引入各种缓慢故障,测量它们在不同负载下的影响,并识别模式。我们的研究表明,即使微小的变化也可能导致截然不同的反应。虽然一些系统增加了缓慢故障处理机制,但它们大多由静态阈值控制,难以适应高度敏感和动态的特性。为解决这一差距,我们设计了 ADR,一个轻量级库,用于在系统代码中使用,并使故障缓慢处理自适应。评估表明,ADR 显著降低了缓慢故障的影响。
6、Pyrrha: Congestion-Root-Based Flow Control to Eliminate Head-of-Line Blocking in Datacenter Pyrrha:基于拥塞根的流量控制来消除数据中心的队头阻塞
在现代数据中心,端到端拥塞控制(CC)的有效性随着带宽的快速发展而迅速下降。逐跳流控制(FC)可以更及时地响应拥塞。然而,粗粒度的流控制可能导致首尾阻塞(HOL)。细粒度的、逐流流控制可以消除由流控制引起的首尾阻塞,但它扩展性不佳。本文提出了 Pyrrha,一种可扩展的流控制方法,它能够在使用最少数量队列的同时,可证明地消除首尾阻塞。在 Pyrrha 中,流控制首先作用于拥塞的根源,即发生拥塞的端口。然后根据流所贡献的拥塞根源来控制流。Pyrrha 的原型在 Tofino2 交换机上实现。与最先进的方法相比,非拥塞流的平均 FCT 降低了 42%-98%,99 分位延迟可以降低 1.6×-215×,同时不会影响拥塞流的表现。
7、White-Boxing RDMA with Packet-Granular Software Control 基于数据包粒度软件控制的RDMA白盒化
受不同工作负载和部署的驱动,涌现出大量创新来定制 RDMA 传输,涵盖拥塞控制、多租户隔离、路由等方面。然而,RDMA 的硬件卸载特性在落地这些创新时带来了显著僵化。以往提供定制化的工作流程要么等待漫长的硬件迭代,要么开发专用硬件,要么对黑盒 RDMA 网卡进行粗粒度控制。尽管付出了巨大努力,当前的定制化工作流程仍然缺乏灵活性、原始性能和广泛可用性。
在这项工作中,我们提倡白盒 RDMA,它将硬件传输控制权交给通用软件,同时保留原始数据路径性能。为了促进白盒方法,我们设计并实现了软件控制 RDMA(SCR),这是一个允许对硬件传输进行数据包级软件控制的框架。为了应对高速线路速率粒度控制带来的挑战,SCR 采用有效的控制模型,提高了框架内子系统的效率,并利用了新兴硬件功能。我们在配备 Datapath 加速器的最新 Nvidia BlueField-3 上实现了 SCR,提供了传统 RDMA 传输中不存在的一系列新的定制功能,例如多租户公平调度器、用户定义的拥塞控制、接收器驱动流量控制和多路径路由选择。此外,我们展示了 SCR 对 GPU-Direct 和 NVMe-oF RDMA 的适用性,而无需对机器学习或存储代码进行任何修改。
8、SIRD: A Sender-Informed, Receiver-Driven Datacenter Transport Protocol SIRD:一种发送方通知,接收方驱动的数据中心传输协议
数据中心拥塞控制协议面临着在相对包缓冲容量逐年下降的情况下如何权衡吞吐量-缓冲区权衡的挑战。在这种情况下,当瓶颈位于 ToR 到接收器的链路时,接收器驱动的协议(它调度数据包传输而不是对拥塞做出反应)表现优异。然而,当多个接收器必须使用共享链路(例如,ToR 到 Spine)时,它们的独立调度可能会发生冲突。
我们提出了 SIRD,这是一种基于接收器驱动的拥塞控制协议,其核心思想是针对单所有者链路进行调度,而共享链路则应使用反应式控制算法进行管理。这种方法允许接收器精确地调度其下行链路,并协调共享瓶颈。关键的是,SIRD 还将发送者上行链路视为共享链路,从而实现从发送者到接收者的拥塞反馈流,接收器随后根据每个发送者的实时容量调整其调度。这带来了紧密的调度,能够在很少的竞争下实现高带宽利用率,从而在设备中实现最小的延迟缓冲。
我们在 Caladan 堆栈上实现了 SIRD,并展示了 SIRD 的非对称设计可以在软件中提供 100Gbps 的性能,同时保持网络排队最小。我们进一步将 SIRD 与最先进的接收器驱动协议(Homa、dcPIM 和 ExpressPass)以及生产级的反应式协议(Swift 和 DCTCP)进行了比较,并表明 SIRD 能够独特地同时最大化链路利用率、最小化排队并获得接近最优的延迟。
9、Minder: Faulty Machine Detection for Large-scale Distributed Model Training Minder:大规模分布式模型训练中的故障机器检测
大规模分布式模型训练需要在多达数千台机器上进行同步训练。当机器发生意外故障时,故障机器检测至关重要。根据我们的经验,一个训练任务平均每天会遇到两次故障,可能导致数小时中断。为了解决耗时且费力的手动检查的缺点,我们提出了 Minder,一个用于分布式训练任务的自动故障机器检测器。Minder 的关键思想是自动高效地检测故障独特的监控指标模式,这些模式可能在整个训练任务完全中断之前持续一段时间。Minder 已在我们生产环境中部署超过一年,监控每天涉及多达数千台机器的分布式训练任务。在我们的实际故障检测场景中,Minder 平均在 3.6 秒内准确高效地响应故障,精确度为 0.904,F1 分数为 0.893。
10、AutoCCL: Automated Collective Communication Tuning for Accelerating Distributed and Parallel DNN Training AutoCCL:自动化集体通信调优,用于加速分布式和并行DNN训练
集体通信库在优化分布式和并行深度神经网络(DNN)训练的性能方面至关重要。大多数网络优化都假设这些库已经过良好调优,忽略了它们低级参数的选择。在本文中,我们提出了一种名为 AutoCCL 的新型自动调优方法,该方法在不增加额外成本的情况下显著提高了通信性能。我们面临的主要挑战之一是在搜索最佳配置时状态爆炸。为了克服这一点,我们将与实现相关的参数与对搜索空间大小敏感的参数解耦,并提出了一种分而治之的算法,最大限度地减少了对穷举试验的需求。我们进一步提出了一种在线调优方法,该方法考虑了通信-计算干扰,以提高找到最佳配置的准确性,同时在训练作业的早期迭代中隐藏调优开销。我们在 NCCL(由 NVIDIA 提供的一个领先的、广泛使用的通信库)之上实现了 AutoCCL。 我们在包含 2 个节点的集群(每个节点 16 个 A40 GPU,节点内 NVLink,节点间 2× 400Gbps InfiniBand)和包含 4 个节点的集群(每个节点 32 个 A40 GPU,节点内 PCIe,节点间 100Gbps InfiniBand)上的评估表明,与 NCCL 和另一个 SOTA NCCL 调谐器相比,AutoCCL 在微基准测试中实现了 1.24-1.29 倍和 1.15-1.22 倍的速度提升,并且在并发计算中最高可达 1.80 倍和 1.49 倍。在三个大型语言模型和一个视觉模型上的端到端评估显示,每次迭代的训练时间提高了 1.07-1.32 倍。
11、OptiReduce: Resilient and Tail-Optimal AllReduce for Distributed Deep Learning in the Cloud OptiReduce:云端分布式深度学习的弹性及尾优AllReduce
我们介绍了 OptiReduce,这是一个为云环境设计的新的集体通信系统,它为深度学习任务提供了有界、可预测的完成时间,即使在存在变化的计算(延迟)和通信(拥塞和梯度丢失)可变性时也是如此。OptiReduce 利用了分布式深度学习(DDL)训练和微调的固有弹性和随机性质,以与近似(或丢失)的梯度一起工作——在(尾部)性能和训练模型的最终精度之间提供了高效的平衡。
利用 DDL 的领域特定特性,OptiReduce 引入了(1)机制(例如,不可靠的带自适应超时的有界传输)来提高 DDL 作业的尾部执行时间,以及(2)策略(例如,Transpose AllReduce 和 Hadamard Transform)来减轻梯度下降对模型准确性的影响。我们的评估表明,在共享、云环境(例如,CloudLab)中运行时,OptiReduce 与 Gloo 和 NCCL 相比,平均时间达到准确率(TTA)的速度分别提高了 70%和 30%。
12、SuperServe: Fine-Grained Inference Serving for Unpredictable Workloads SuperServe:针对不可预测工作负载的细粒度推理服务
随着机器学习模型在生产应用的关键路径上越来越多地部署,机器学习推理服务系统需要在不可预测和突发请求到达率的情况下服务这些模型。在这样条件下服务多个模型需要在每个应用的延迟和精度要求与稀缺资源的整体利用效率之间进行仔细的权衡。面对这种张力,最先进的系统要么选择一个代表延迟-精度权衡空间中静态点的单一模型来服务所有请求,要么通过在请求服务的关键路径上加载特定模型来违反延迟目标。我们的工作通过高效地服务整个跨越延迟-精度权衡空间的模型范围来解决这种张力。我们的新颖机制 SubNetAct 通过在预训练的权重共享超网络中仔细插入专门的控制流操作来实现这一点。这些操作使 SubNetAct 能够动态地将请求通过网络路由到激活满足请求的延迟和精度目标的特定模型。 因此,SubNetAct 可以比以往系统服务多得多的模型,同时内存需求降低高达 2.6 倍。更重要的是,SubNetAct 能够快速启动各种模型,为细粒度、反应式调度策略的设计空间打开了大门。我们设计了一种非常有效的策略 SlackFit,并在真实系统 SuperServe 中实例化了 SubNetAct 和 SlackFit。在基于微软工作负载的真实追踪数据上,SuperServe 在相同延迟目标下实现了 4.67%更高的准确率,在相同准确率下实现了 2.85 倍的延迟目标达成率。
13、Ladder: A Convergence-based Structured DAG Blockchain for High Throughput and Low Latency(区块链) Ladder:一种基于收敛的结构化DAG区块链,用于高吞吐量和低延迟
近期文献提出了使用有向无环图(DAG)来提升区块链性能。然而,当前的块-DAG 设计在完全利用并行块处理时面临三个重要限制:由于块排序成本高导致的高计算开销、复杂的交易确认过程,以及在确定枢轴链时容易受到平衡攻击。为此,我们提出了 Ladder,一种具有收敛机制的结构化双链 DAG 区块链,该机制有效地优化了并行块处理策略,并提升了整体性能和安全性。在每一轮中,一个指定的收敛节点生成一个下链块,对从上链分叉的块进行排序,从而降低计算开销并简化交易确认。为了应对潜在的对抗性干扰,当检测到错误块时,会动态选择一个委员会来生成特殊块。我们在分布式网络环境中实现了并评估了 Ladder,与几种最先进的方法进行了比较。我们的结果表明,Ladder 的吞吐量提升了 59.6%,延迟降低了 20.9%。
14、Learning Production-Optimized Congestion Control Selection for Alibaba Cloud CDN 针对阿里云CDN的优化生产型拥塞控制选择学习
当前的内容分发网络(CDN)通常使用静态拥塞控制(CC)配置,但多样化的网络环境使得针对所有地理区域都存在一个普遍最优的 CC 成为不可能,这一点通过我们广泛的测量得到了证实。目前的 CC 算法由于适用范围狭窄或维护成本高,在大型 CDN 中难以发挥作用。这项工作介绍了 AliCCS,这是首个专为生产型 CDN 设计的 CC 选择(CCS)方法,通过集成细粒度的领域知识来学习选择现有的、成熟的 CC 中的最佳 CC。通过在阿里云 CDN 中超过一年的实际部署,AliCCS 将用户体验质量(QoE)提升了高达 9.31%,超过了 CDN 市场的竞争差距,并在中国的所有省份中显著降低了重传率,从 25.51%到 174.36%,节省了超过 100 万美元的成本。我们还分享了在规模化部署 AliCCS 过程中的关键见解和经验,突出了阿里云 CDN 中的流量模式。
15、Evolution of Aegis: Fault Diagnosis for AI Model Training Service in Production Aegis的演讲:生产中AI模型训练服务的故障诊断
尽管诊断系统在传统云计算中取得了成功,但由于传统云计算和模型训练之间的计算范式存在差异,这些系统并不适用于定位人工智能模型训练云场景中的故障。作为最大的云服务提供商之一,我们提出了 Aegis,这是一个专门为人工智能模型训练服务设计的故障诊断系统。我们分享了 Aegis 在动机、设计和演变方面的经验。以易于部署为主要原则,Aegis 第一阶段从增强现有的通用诊断系统开始。经过几个月的演变,Aegis 第二阶段巧妙地选择定制集体通信库,以便在运行时进行复杂的故障定位,而无需修改客户代码。除了故障定位之外,我们还进一步为 Aegis 配备了处理交付前性能下降和故障检查的能力。Aegis 已在我们生产训练云服务中部署了一年。Aegis 减少了 97%以上的诊断空闲时间,84%的训练任务重启次数和 71%的性能下降。
16、HA/TCP: A Reliable and Scalable Framework for TCP Network Functions HA/TCP:一个可靠且可扩展的TCP网络功能框架
第 7 层网络功能(NFs)是现代网络基础设施的关键部分。因此,这些 NFs 的可扩展性和可靠性非常重要,但也具有挑战性,因为第 7 层 NFs 的复杂性。本文介绍了 HA/TCP,一个能够实现第 7 层 NFs 迁移和故障转移的框架。HA/TCP 使用一种新颖的复制机制来同步副本之间的状态,以低开销实现 TCP 连接的无缝迁移和故障转移。HA/TCP 将实现细节封装到我们的复制套接字接口中,允许开发人员轻松为其第 7 层 NFs(如 WAN 加速器、负载均衡器和代理)添加高可用性。我们的基准测试表明,HA/TCP 为 100 Gbps 的 NF 提供了可靠性,客户端吞吐量下降仅为 0.2%。HA/TCP 在 38 µs 内透明地迁移一个连接,包括网络延迟。我们为 SOCKS 代理和 WAN 加速器提供了可靠性,吞吐量下降小于 2%,CPU 使用量略有增加。
17、MTP: Transport for In-Network Computing MTP:网络内计算传输
网络内计算(INC)正被越来越多地采用,通过将应用程序的部分计算卸载到网络设备上来加速应用程序。这种针对特定应用(L7)的卸载具有一些传输协议必须处理的属性——它们可能会改变、拦截、重新排序和延迟跨越多个数据包的应用程序消息。同时,传输协议还必须适应托管 L7 卸载的网络设备的缓冲和计算限制。现有的传输协议和替代方法在这些方面都存在不足。因此,我们提出了 MTP,这是第一个原生支持 INC 的传输协议。MTP 围绕两个主要组件构建:1)一种新颖的消息导向可靠性协议和 2)一个资源特定的拥塞控制框架。我们基于 DPDK 实现了一个完整的 MTP 原型。我们在一个真实 INC 应用程序的测试平台以及全面的微基准测试和大规模仿真中展示了 MTP 的有效性。
18、ONCache: A Cache-Based Low-Overhead Container Overlay Network ONCache:基于缓存的低开销容器覆盖网络
近年来,容器得到了广泛应用。虽然容器简化并加速了应用开发,但现有的容器网络技术要么带来显著的开销,这会损害分布式应用的性能,要么失去灵活性或兼容性,这阻碍了其在生产环境中的广泛部署。
我们仔细分析了覆盖网络中的内核数据路径,量化了数据路径中每个部分消耗的时间,并确定了与裸金属相比,覆盖网络中的额外开销。我们观察到这种额外开销在数据包之间产生了重复的结果,这启发我们在覆盖网络中引入缓存。
我们设计和实现了 ONCache(覆盖网络缓存),一种基于缓存的容器覆盖网络,以消除额外的开销,同时保持灵活性和兼容性。我们使用扩展的 Berkeley Packet Filter(eBPF)实现了 ONCache,仅用了 524 行代码,并将其作为 Antrea 的插件集成。有了 ONCache,容器的网络性能与裸金属相当。与标准覆盖网络相比,ONCache 将 TCP 的吞吐量和请求-响应事务率分别提高了 12%和 36%(UDP 分别为 20%和 34%),同时显著降低了每包 CPU 开销。流行的分布式应用程序也受益于 ONCache。
19、ClubHeap: A High-Speed and Scalable Priority Queue for Programmable Packet Scheduling ClubHeap:一种高速且可扩展的优先队列,用于可编程数据包调度
虽然 PIFO 是一种强大的优先队列抽象,用于支持网络设备中的可编程数据包调度,但 PIFO 的高效实现面临着性能和可扩展性方面的多重挑战。现有的解决方案都未能满足某些要求。在本文中,我们提出了 ClubHeap 来解决该问题。一方面,我们开发了一种新的硬件友好型堆数据结构,以支持更快的 PIFO 队列操作,能够在每个时钟周期调度一个流,达到理论下限;另一方面,优化的硬件架构降低了电路复杂度,从而实现了更高的时钟频率。最终结果是同类最佳的调度性能。结合其固有的更好的可扩展性和灵活性,ClubHeap 是构建在可编程交换机和 SmartNIC 中的理想解决方案,以支持各种调度算法。我们构建了一个基于 FPGA 的硬件原型,并通过将 ClubHeap 与其他最先进的解决方案进行比较来进行全面评估。 ClubHeap 还允许通过参数调整在吞吐量和资源消耗之间进行优雅的权衡,使其能够适应不同的目标设备。
20、Mutant: Learning Congestion Control from Existing Protocols via Online Reinforcement Learning Mutant:通过在线强化学习从现有协议中学习拥塞控制
学习如何控制拥塞仍然是一个挑战,尽管已经取得了多年的进展。现有的拥塞控制协议在特定的网络条件下已经证明了其有效性,但在其他条件下不可避免地表现不佳或较差。已经提出了基于机器学习的拥塞控制解决方案,尽管它们依赖于大量的训练和特定的网络配置。在本文中,我们通过提出 Mutant——一种适应最佳性能方案行为的在线强化学习算法,用于拥塞控制,从而放宽了这些依赖关系,并在大多数网络条件下优于它们。设计挑战包括在给定的网络场景下确定要学习的最佳协议,以及创建一个能够通过最小化更改来适应未来协议的系统。我们对真实世界和模拟场景的评估表明,Mutant 比先前的基于学习的方案实现了更低的延迟和更高的吞吐量,同时通过表现出对竞争流量的损害可以忽略不计来保持公平性,使其在各种动态网络条件下都具有鲁棒性。
21、CATO: End-to-End Optimization of ML-Based Traffic Analysis Pipelines CATO:基于机器学习的流量分析管道端到端优化
机器学习在提升网络流量分析应用的能力方面展现出巨大的潜力,其性能往往优于简单的基于规则的启发式方法。然而,基于机器学习的解决方案在实践中仍然难以部署。许多现有方法仅优化其模型的预测性能,而忽略了在实际网络流量中运行它们的实际挑战。在流量分析领域,这个问题尤其突出,因为服务管道的效率是决定模型可用性的关键因素。在这项工作中,我们介绍了 CATO,一个通过联合优化服务管道的预测性能和相关系统成本来解决此问题的框架。CATO 利用多目标贝叶斯优化的最新进展,有效地识别 Pareto 最优配置,并自动编译端到端优化的服务管道,这些管道可以在真实网络中部署。 我们的评估表明,与流行的特征优化技术相比,CATO 可以提供高达 3600 倍的推理延迟降低和 3.7 倍的零损失吞吐量提升,同时实现更好的模型性能。
22、Resolving Packets from Counters: Enabling Multi-scale Network Traffic Super Resolution via Composable Large Traffic Model 从计数器解析数据包:通过可组合大型流量模型实现多尺度网络流量超高分辨率
逼真的细粒度流量轨迹对学术界和工业界的许多应用都很有价值。然而,直接从设备中获取它们具有很大的挑战性,而粗粒度计数器在几乎所有网络设备上都可以轻松获得。现有的所有工作都不能从计数器中恢复细粒度流量轨迹,我们称之为网络流量超分辨率(TSR)。为此,我们提出了 ZOOMSYNTH,这是第一个可以以计数器轨迹为输入实现数据包级轨迹合成的 TSR 系统。遵循 TSR 任务的基本结构,我们设计了粒度流量转换器(GTT)模型和可组合大型流量模型(CLTM)。CLTM 是 GTT 模型的树,每一层的 GTT 模型在特定的粒度上进行上采样,这使得每个 GTT 模型能够捕获该分辨率的流量特征。使用 CLTM,我们从计数器中合成细粒度轨迹。我们还利用一个遵循规则模型来理解计数器规则(例如 ACL),当可用时,指导细粒度轨迹的生成。我们实现了 ZOOMSYNTH,并进行了广泛的评估。 结果表明,仅使用二级计数器跟踪,ZOOMSYNTH 实现的合成质量与现有以数据包级跟踪为输入的解决方案相当。CLTM 也可以进行微调以支持下游任务。例如,使用微调 CLTM 的 ZOOMSYNTH 在异常检测和服务识别任务中分别比现有解决方案提高了 27.5% 和 9.8%。为了促进未来的研究,我们发布了预训练的 CLTM-1.8B 模型权重及其源代码。