PEAKKIZZA-CSDN博客

原创如何在huggingface上下载模型

填写上自己的token之后现实登录成功，然后就可以下载不需要额外认证的模型。

2024-08-27 19:18:41 679

原创如何让Latex在文章中支持中文显示

【代码】如何让Latex在文章中支持中文显示。

2024-05-16 21:22:14 588

原创【论文阅读】DSP: Dynamic Sequence Parallelism for Multi-Dimensional Transformers

为多维Transformer实现高效的序列并行性关键思想是根据当前计算阶段动态切换并行维度，与应用传统的单维并行性相比，这种动态维度切换允许以最小的通信开销实现序列并行性。

2024-04-20 17:40:44 1783 1

原创【源码阅读】分布式通信部分代码阅读

【代码】【源码阅读】分布式通信部分代码阅读。

2024-03-25 15:44:21 241

原创【论文阅读】S3: Increasing GPU Utilization during Generative Inference for Higher Throughput

名字：schedulingsspeculation除了已经很大的模型参数之外，保存序列中先前标记信息的键/值 (KV) 缓存可能会变得比模型本身还要大。它为KV缓存保留了内存的最大序列长度，以保证在不知道输出序列长度的情况下生成完整的序列。这限制了我们使用较小的批量大小，从而导致 GPU 利用率较低，最重要的是吞吐量较低。设计一个系统预测输出序列的长度根据长度生成query内存容量和带宽。凸显了内存限制以及高效内存利用以提高 GPU 计算资源利用率的需求。批次内输入共享模型权重。

2024-03-24 21:09:45 1197 1

原创 pip查看包的常用指令

【代码】pip查看包的常用指令。

2024-03-14 15:17:06 884

原创论文阅读：Benchmarking and Dissecting the Nvidia Hopper GPU Architecture

GDDR6X相比传统的GDDR6存储技术有更高的带宽和更快的数据传输速度，这使得GPU能够更有效地处理大规模的图形数据和复杂的计算任务。**HBM2e与传统的*GDDR（Graphics Double Data Rate）***内存相比，具有更高的数据传输速率和更低的功耗。HBM2e是HBM2（High Bandwidth Memory 2）的改进版本，旨在提供更高的内存带宽和更大的容量，以满足高性能计算和图形处理等领域的需求。**TLB的预测是指对TLB中将要发生的转换进行预测，以提高地址转换的效率。

2024-03-05 23:06:14 3071 1

原创论文阅读：cuSZp: AnUltra-fastGPUError-boundedLossyCompressionFrameworkwithOptimized End-to-End Peformance

原文链接：https://arxiv.org/pdf/2302.14017.pdf代码链接：https://github.com/szcompressor/cuSZp主要关键词：****是一种集成学习技术，旨在将预测建模任务分解为子任务，并为每个子任务训练专家模型。它还涉及开发一个判断模型，根据要预测的输入来学习哪个专家模型可信，并结合这些预测。尽管最初是在神经网络领域中描述的，但它可以推广到使用任何类型的模型。MoE方法包括以下四个元素：MoE的架构包括专家网络和判断网络。专家网络是专门的模型，每个模型

2024-02-02 15:56:39 1146 1

原创论文阅读（第四部分）：Full Stack Optimization of Transformer Inference: a Survey

虽然结构化剪枝可以在没有额外硬件支持的情况下提供内存、能耗和延迟等方面的好处，但众所周知，它比非结构化剪枝获得更低的压缩率,激活修剪裁剪掉了推理过程中的冗余激活，对于Transformer模型尤其有效。在某些情况下，量化也使得在仅有整数的硬件单元中部署DNN模型成为可能，否则可能是不可能的，或者可能会为卸载片外的非整数操作带来相当大的开销。特别是，必须特别考虑量化没有精度下降的。**对MHA和FFN模块使用单独的数据通路可以具有更高的面积开销，但与对这两个模块使用单一的数据通路相比，可以实现更积极的优化。

2024-01-30 14:16:33 1001 1

原创论文阅读（第三部分）：Full Stack Optimization of Transformer Inference: a Survey

但是，shared memory 中的每个元素都别使用了 16 次，从而使总的 global memory 访问量减少 16 倍，变为 2 x 32 x 32 x 32 / 16 ，Computation-to-memory ratio 为 4 (flop/byte)，比之前提高了 16 倍。这种技术在设计阶段特别有用，因为在设计阶段，对实际硬件的剖析可能是困难的，但为了做出设计决策，分析是必要的我们提供了使用解析建模来获得延迟崩溃和非理想算术强度的例子。**是一种专门用于特定应用领域的集成电路。

2024-01-29 14:27:47 956 1

原创论文阅读（第二部分）：Full Stack Optimization of Transformer Inference: a Survey

相反，如果算术强度低于阈值，那么该操作就是内存受限的，对处理器进行参数调整以更有效地利用处理器是无效的。ResNet50 without any operator fusion consumes 3.07 times fewer FLOPs and 1.28 times fewer MOPs导致更小的端到端的算术密度，这事因为很少的非线性操作FLOPs消耗但是有比较大的MOPs消耗类似于BERT-Base encoder。相对于投影层，act-to-act matmul的算术密度较低，因为这两个操作中的。

2024-01-27 21:32:49 1002 1