VvCandy_-CSDN博客

翻译 Fast Inference from Transformers via Speculative Decoding

大模型加速效果明显，但需要额外计算资源

2023-09-04 18:59:45 531

原创 Focused Transformer: Contrastive Training forContext Scaling

LLM 能够以上下文的方式整合新信息，但由于有效上下文长度限制，这种能力会受到限制。解决这个问题的一种方案是赋予注意力层访问外部存储器的能力，该存储器由键值对组成。然而，随着文档数增加，不相关键增加，导致模型更多地关注不相关键。分心问题（the distraction issue）指的是链接到不同语义值的键可能重叠，使得它们难以区分。Focused Transformer（FOT）采用受对比学习启发的训练过程来解决这个问题。这种方法增强了键值空间结构，允许扩展上下文长度。

2023-08-07 16:00:04 195

原创 DeepSpeedGhat 步骤3详解

InstructGPT 实现之DeepSpeedChat Step3 PPO算法及实现详解

2023-05-11 16:40:43 174 1

翻译 Improving language models by retrieving from trillions of tokens

本文基于预设 token 的局部相似性，通过调节从大型语料库中检索到的文档块来增强自回归语言模型，使用比 GPT-3 少 25 倍的参数量就能达到类似性能。增加模型大小能够改善大量下游任务的性能，增加参数量的益处来源于两个因素：训练和推理时的额外计算以及增强对训练数据的记忆。

2023-04-28 21:40:26 464

翻译 NPAS:A Compiler-aware Framework of Unified Network Pruning and Architecture Search

原文链接：模型优化-NPAS：A Compiler-aware Framework of Unified Network Pruning and Architecture Search for Beyond Real-Time Mobile Acceleration · 语雀Abstract随着在移动边缘设备上有效部署 DNN 的需求不断增加，减少不必要的计算并提高执行速度变得更加重要。实现这一目标的先前方法，包括模型压缩和网络架构搜索（NAS），在很大程度上是独立执行的，并且没有充分考虑移动加

2022-04-19 10:41:25 429

翻译单目深度估计-NeW CRFs: Neural Window Fully-connected CRFs for Monocular Depth Estimation

从单个图像估计准确的深度是具有挑战性的，因为它本质上是模棱两可和不适定的。虽然最近的作品设计了越来越复杂和强大的网络来直接回归深度图，但我们走的是 CRF （条件随机场）优化的道路。由于计算成本高，CRF 通常在邻域之间而不是整个图之间执行。为了利用全连接 CRF 的潜力，我们将输入拆分为窗口并在每个窗口内执行 FC-CRF 优化，这降低了计算复杂度并使 FC-CRF 可行。为了更好地捕捉图中节点之间的关系，我们利用多头注意力机制来计算多头势函数，该函数被馈送到网络以输出优化的深度图。然后我们构建一个自下而

2022-03-24 17:20:26 2660

sinat_35817800的博客

翻译 Fast Inference from Transformers via Speculative Decoding

原创 Focused Transformer: Contrastive Training forContext Scaling

原创 DeepSpeedGhat 步骤3详解

翻译 Improving language models by retrieving from trillions of tokens

翻译 NPAS:A Compiler-aware Framework of Unified Network Pruning and Architecture Search

翻译单目深度估计-NeW CRFs: Neural Window Fully-connected CRFs for Monocular Depth Estimation

空空如也

空空如也

翻译 Fast Inference from Transformers via Speculative Decoding

原创 Focused Transformer: Contrastive Training forContext Scaling

原创 DeepSpeedGhat 步骤3详解

翻译 Improving language models by retrieving from trillions of tokens

翻译 NPAS:A Compiler-aware Framework of Unified Network Pruning and Architecture Search

翻译 单目深度估计-NeW CRFs: Neural Window Fully-connected CRFs for Monocular Depth Estimation

空空如也

空空如也

翻译单目深度估计-NeW CRFs: Neural Window Fully-connected CRFs for Monocular Depth Estimation