自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 【论文阅读】DSP: Dynamic Sequence Parallelism for Multi-Dimensional Transformers

为多维Transformer实现高效的序列并行性关键思想是根据当前计算阶段动态切换并行维度,与应用传统的单维并行性相比,这种动态维度切换允许以最小的通信开销实现序列并行性。

2024-04-20 17:40:44 811 1

原创 【源码阅读】分布式通信部分代码阅读

【代码】【源码阅读】分布式通信部分代码阅读。

2024-03-25 15:44:21 134

原创 【论文阅读】S3: Increasing GPU Utilization during Generative Inference for Higher Throughput

名字:schedulingsspeculation除了已经很大的模型参数之外,保存序列中先前标记信息的键/值 (KV) 缓存可能会变得比模型本身还要大。它为KV缓存保留了内存的最大序列长度,以保证在不知道输出序列长度的情况下生成完整的序列。这限制了我们使用较小的批量大小,从而导致 GPU 利用率较低,最重要的是吞吐量较低。设计一个系统预测输出序列的长度根据长度生成query内存容量和带宽。凸显了内存限制以及高效内存利用以提高 GPU 计算资源利用率的需求。批次内输入共享模型权重。

2024-03-24 21:09:45 870 1

原创 pip查看包的常用指令

【代码】pip查看包的常用指令。

2024-03-14 15:17:06 415

原创 论文阅读:Benchmarking and Dissecting the Nvidia Hopper GPU Architecture

GDDR6X相比传统的GDDR6存储技术有更高的带宽和更快的数据传输速度,这使得GPU能够更有效地处理大规模的图形数据和复杂的计算任务。**HBM2e与传统的*GDDR(Graphics Double Data Rate)***内存相比,具有更高的数据传输速率和更低的功耗。HBM2e是HBM2(High Bandwidth Memory 2)的改进版本,旨在提供更高的内存带宽和更大的容量,以满足高性能计算和图形处理等领域的需求。**TLB的预测是指对TLB中将要发生的转换进行预测,以提高地址转换的效率。

2024-03-05 23:06:14 982

原创 论文阅读:cuSZp: AnUltra-fastGPUError-boundedLossyCompressionFrameworkwithOptimized End-to-End Peformance

原文链接:https://arxiv.org/pdf/2302.14017.pdf代码链接:https://github.com/szcompressor/cuSZp主要关键词:****是一种集成学习技术,旨在将预测建模任务分解为子任务,并为每个子任务训练专家模型。它还涉及开发一个判断模型,根据要预测的输入来学习哪个专家模型可信,并结合这些预测。尽管最初是在神经网络领域中描述的,但它可以推广到使用任何类型的模型。MoE方法包括以下四个元素:MoE的架构包括专家网络和判断网络。专家网络是专门的模型,每个模型

2024-02-02 15:56:39 934

原创 论文阅读(第四部分):Full Stack Optimization of Transformer Inference: a Survey

虽然结构化剪枝可以在没有额外硬件支持的情况下提供内存、能耗和延迟等方面的好处,但众所周知,它比非结构化剪枝获得更低的压缩率,激活修剪裁剪掉了推理过程中的冗余激活,对于Transformer模型尤其有效。在某些情况下,量化也使得在仅有整数的硬件单元中部署DNN模型成为可能,否则可能是不可能的,或者可能会为卸载片外的非整数操作带来相当大的开销。特别是,必须特别考虑量化没有精度下降的。**对MHA和FFN模块使用单独的数据通路可以具有更高的面积开销,但与对这两个模块使用单一的数据通路相比,可以实现更积极的优化。

2024-01-30 14:16:33 841

原创 论文阅读(第三部分):Full Stack Optimization of Transformer Inference: a Survey

但是,shared memory 中的每个元素都别使用了 16 次,从而使总的 global memory 访问量减少 16 倍,变为 2 x 32 x 32 x 32 / 16 ,Computation-to-memory ratio 为 4 (flop/byte),比之前提高了 16 倍。这种技术在设计阶段特别有用,因为在设计阶段,对实际硬件的剖析可能是困难的,但为了做出设计决策,分析是必要的我们提供了使用解析建模来获得延迟崩溃和非理想算术强度的例子。**是一种专门用于特定应用领域的集成电路。

2024-01-29 14:27:47 779

原创 论文阅读(第二部分):Full Stack Optimization of Transformer Inference: a Survey

相反,如果算术强度低于阈值,那么该操作就是内存受限的,对处理器进行参数调整以更有效地利用处理器是无效的。ResNet50 without any operator fusion consumes 3.07 times fewer FLOPs and 1.28 times fewer MOPs导致更小的端到端的算术密度,这事因为很少的非线性操作FLOPs消耗但是有比较大的MOPs消耗类似于BERT-Base encoder。相对于投影层,act-to-act matmul的算术密度较低,因为这两个操作中的。

2024-01-27 21:32:49 733 1

原创 论文阅读(第一部分):Full Stack Optimization of Transformer Inference: a Survey

and **passes it through multiple Transformer encoder blocks,***并且提取输入的序列的高级别特征,这些提取的特征之后进入decoder,它负责为目标语言生成tokens,这是基于encoder的源语言特性以及它之前生成的tokens。要将此操作与前面的matmul操作融合,在写出结果之前必须在reduction维度上累积整个输出矩阵(计算均值和方差的维度),这倒是不规则的tiling维度和更低的数据重用。,需要专门的支持或片外计算。

2024-01-26 20:44:47 884 1

原创 论文阅读:EFFICIENTLY SCALING TRANSFORMER INFERENCE

较大的批大小需要更多的内存空间,但可以加快训练速度。一个 epoch(时期)表示所有训练样本完成一次前向传播和反向传播,而**批大小则决定了完成一次 epoch 需要进行多少次迭代。**举例来说,如果有1000个训练样本,批大小设置为500,那么完成一个 epoch 需要进行2次迭代。较小的批大小可以节省内存空间,但估计梯度的准确性会降低。另外,

2024-01-26 16:04:27 987 1

原创 visio

VisioPremium2010密钥+破解激活方法:在安装时可以使用以下密钥:GR24B-GC2XY-KRXRG-2TRJJ-4X7DCVWQ6G-37WBG-J7DJP-CY66Y-V278X2T8H8-JPW3D-CJGRK-3HTVF-VWD83HMCVF-BX8YB-JK46P-DP3KJ-9DRB222WT8-GGT7M-7MVKR-HF7Y4-MCWWDVX6BF-BHVDV-MHQ4R-KH9QD-6TQKVJ4MVP-7F4X4-V8W2C-8VWXY-2KBX3MGF

2022-04-02 21:45:48 1852

原创 学习之女巫攻击

模仿出多种身份进行的攻击就是女巫攻击,生活中常见的就是利用多个ip地址刷量、刷赞。

2022-03-27 16:24:11 262

原创 Beta分布

对于一个我们不知道概率是什么,而又有一些合理的猜测时,beta分布能很好的作为一个表示概率的概率分布beta分布与二项分布的共轭先验性质二项分布二项分布即重复n次独立的伯努利试验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布服从0-1分布二项分布的似然函数:beta分布:在beta分布中,B函数是一个标准化函数,它只是为了使得

2022-03-26 23:11:34 132

转载 【无标题】

raft算法从拜占庭将军的故事映射到分布式系统上,每个将军相当于一个分布式网络节点,每个节点有三种状态:Follower,Candidate,Leader,状态之间是互相转换的,可以参考下图,具体的后面说。每个节点上都有一个倒计时器 (Election Timeout),时间随机在 150ms 到 300ms 之间。有几种情况会重设 Timeout:收到选举的请求收到 Leader 的 Heartbeat (后面会讲到)在 Raft 运行过程中,最主要进行两个活动:选主 Leader Ele

2022-03-26 18:19:26 65

原创 递归实现逆波兰表达式

``//逆波兰表达式//一个数即是一个逆波兰表达式//运算符 逆波兰表达式 逆波兰表达式//定义即看出来是递归 循环定义递归定义//递归终止条件,w问题形式本身就是递归#include<stdio.h>#include<stdlib.h> 在这里插入代码片double exp();int main(){ printf("%lf",exp()); return 0; } double exp(){ char s[20]; scanf("%c\n",&am

2021-03-24 15:54:25 138

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除