zj.Liu-CSDN博客

原创【论文阅读】TWDP: A Vision Transformer Accelerator with Token-Weight Dual-Pruning Strategy for Edge Device

视觉变换器（ViTs）因其在各种计算机视觉任务中相较于卷积神经网络（CNNs）具有更高的准确性而备受关注。然而，其庞大的计算负载和显著的内存占用导致了过长的延迟和巨大的数据存储开销，给资源受限的边缘设备部署带来了挑战。为了解决这些问题，我们提出了TWDP，这是一种采用令牌-权重双剪枝策略的视觉变换器加速器，旨在提高推理过程的效率。首先，我们提出了一种无参数的自适应令牌剪枝方法，以图像依赖的方式跳过冗余计算。其次，我们应用了一种基于Hessian的逐层N:M权重剪枝方法，以最小化存储开销、内存访问和计算功耗。

2025-03-29 12:14:21 800 1

原创【论文阅读】Proposal and Investigation of a Lite Time Sensitive Networking Solution

大多数发射器网络基于专有总线，如MIL-STD-1553B，其低带宽限制了具有合适特性的新服务的引入。由于以太网技术成本低且性能高，因此被认为是用于发射器网络的优秀候选技术。基于时间敏感网络（TSN）标准的实时以太网解决方案因其多供应商产品特性而显得最为合适。**本文提出了一种用于航空航天应用的实时以太网解决方案，该方案能够保证微小抖动服务。所提出的解决方案基于以下TSN标准：IEEE 802.1AS/ASrev作为同步协议和802.1Qbv-2015用于确定性流量调度。

2025-03-26 15:40:51 1021 1

原创【论文阅读】论文阅读

文章通过对载人飞船、交会对接阶段和空间站阶段的信息系统进行分析，展示了中国载人航天器信息系统在测控通信、数据传输、信息处理等方面的技术进步和性能提升。本文主要介绍中国载人航天器信息系统在不同阶段的。

2025-03-12 18:19:43 912 1

原创【论文阅读】Rail-only: A Low-Cost High-Performance Network for Training LLMs with Trillion Parameters

本文提出了一种用于超大规模训练大型语言模型（LLMs）的低成本网络架构。我们研究了 LLM 的最佳并行化策略，并提出了一种针对 LLM 独特通信模式量身定制的新型数据中心网络设计。我们发现 LLM 训练在网络中生成稀疏的通信模式，因此无需任何到任何全双工网络即可高效完成。因此，我们的设计消除了传统 GPU 集群中的脊层。我们称这种设计为仅轨网络，并证明它在将网络成本降低 38% 至 77%、网络功耗降低 37%至75%的同时，实现了相同的训练性能，与传统 GPU 数据中心相比。我们的架构还通过转发。

2025-03-02 14:44:28 1133 1

原创【论文阅读】Low-Rate TCP-Targeted Denial of Service Attacks

拒绝服务攻击对全球互联网基础设施的威胁日益增加。虽然 TCP 的拥塞控制算法对各种网络条件具有高度的鲁棒性，但其对终端系统协作的隐含假设导致了众所周知的易受高速无响应流的攻击。在本文中，我们研究了一类低速率拒绝服务攻击，与高速率攻击不同，这些攻击对于路由器和反DoS机制来说难以检测。通过结合分析建模、模拟和互联网实验，我们展示了恶意选择的低速率DoS流量模式可以利用TCP的重传超时机制，将TCP流量限制在其理想速率的一小部分，同时逃避检测。

2025-01-02 16:11:55 1932 1

原创【论文阅读】SimAI

单个大型语言模型（LLM）训练所需的大量GPU显著阻碍了新设计、调整和优化的验证工作，这就需要高效的模拟器的出现。然而，现有模拟器只针对整个训练过程的特定粒度，本质上导致了精度不足。本文介绍了SimAI，这是一个旨在大规模精确且高效模拟LLM训练过程的统一模拟器。通过有选择性地将训练框架、内核计算和集体通信库与模拟过程高度保真地集成，SimAI在模拟中实现了高精度。SimAI进一步进行了多线程加速，并实现了无锁全局上下文共享以提高执行速度。SimAI的有效性通过其性能结果得到了验证，这些结果显示在多种。

2024-12-30 21:05:10 1431 1

原创 AdCoalescer: An Adaptive Coalescer to Reduce the Inter-Module Traffic in MCM-GPUs

算力需求的不断增长推动着MCM-GPUs的发展，以提高并行性。不幸的是，MCM-GPUs遇到了一个显著的挑战，即由于模块间网络导致的性能瓶颈。在MCM-GPUs中，由SM对远程内存的访问必须经由模块间网络来完成，这类访存操作会遇到带宽限制和延迟增大两个问题。这与单模块GPU架构中高效的片内网络设计形成对比。在MCM-GPUs中，作者发现一个GPU模块内部的SM之间存在显著的数据访问冗余的情况，可以通过对这些冗余进行合并来减少网络压力。

2024-12-19 21:54:51 1003

原创 # 【论文阅读】 Evaluating Modern GPU Interconnect: PCIe, NVLink, NV-SLI, NVSwitch and GPUDirect

高性能多GPU计算由于在深度学习、大数据和全球规模模拟等新兴领域对计算能力的不断增长的需求，成为了不可避免的趋势。然而，由于对于现代GPU如何连接以及最先进的互连技术对多GPU应用性能的实际影响缺乏深入的理解的原因，互连技术已经成为了满足算力需求的一个障碍。NVIDIA P100-DGX-1、V100-DGX-1、DGX-2、OLCF的SummitDev和Summit超级计算机，以及一个连接有两个NVIDIA Turing RTX-2080 GPU的SLI系统。

2024-12-07 22:56:40 1231 1

原创【论文阅读】RDMA over Ethernet for Distributed AI Training at Meta Scale

内容概括：本文主要介绍了Meta的Remote Direct Memory Access over Converged Ethernet（RoCE）网络在分布式AI训练中的设计与实施，设计原则是对工作负载的理解，并将其转化成了各种网络组件：• 网络拓扑 - 为了支持AI硬件平台代际的快速演进，我们将基于GPU的训练分离成自己的“后端”网络。• 路由 - 训练工作负载固有地带来负载不平衡和突发性，因此我们部署了多个迭代的路由方案，以实现接近最优的流量分布。

2024-12-01 02:29:19 3187 1

原创【论文阅读】MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs

介绍了MegaScale系统，这是一个为了在极端大规模（超过10,000个GPU）上训练大型语言模型而设计的系统。这种规模的训练对系统的效率和稳定性提出了巨大挑战，因此作者采取了全栈方法，即从算法到系统层面的组件都进行了协同设计和优化。这种设计包括了模型和优化器的设计、计算与通信的重叠执行、操作符的优化、数据管道的管理和网络性能的调整。

2024-11-29 00:13:47 1208 1

原创【论文阅读】An Efficient Algorithm for Exploiting Multiple Arithmetic Units

《An Efficient Algorithm for Exploiting Multiple Arithmetic Units》

2024-11-19 00:29:37 1927 1

qq_52050257的博客