- 博客(6)
- 收藏
- 关注
翻译 Fast Inference from Transformers via Speculative Decoding
大模型加速效果明显,但需要额外计算资源
2023-09-04 18:59:45
531
原创 Focused Transformer: Contrastive Training forContext Scaling
LLM 能够以上下文的方式整合新信息,但由于有效上下文长度限制,这种能力会受到限制。解决这个问题的一种方案是赋予注意力层访问外部存储器的能力,该存储器由键值对组成。然而,随着文档数增加,不相关键增加,导致模型更多地关注不相关键。分心问题(the distraction issue)指的是链接到不同语义值的键可能重叠,使得它们难以区分。Focused Transformer(FOT)采用受对比学习启发的训练过程来解决这个问题。这种方法增强了键值空间结构,允许扩展上下文长度。
2023-08-07 16:00:04
195
翻译 Improving language models by retrieving from trillions of tokens
本文基于预设 token 的局部相似性,通过调节从大型语料库中检索到的文档块来增强自回归语言模型,使用比 GPT-3 少 25 倍的参数量就能达到类似性能。增加模型大小能够改善大量下游任务的性能,增加参数量的益处来源于两个因素:训练和推理时的额外计算以及增强对训练数据的记忆。
2023-04-28 21:40:26
464
翻译 NPAS:A Compiler-aware Framework of Unified Network Pruning and Architecture Search
原文链接:模型优化-NPAS:A Compiler-aware Framework of Unified Network Pruning and Architecture Search for Beyond Real-Time Mobile Acceleration · 语雀Abstract随着在移动边缘设备上有效部署 DNN 的需求不断增加,减少不必要的计算并提高执行速度变得更加重要。实现这一目标的先前方法,包括模型压缩和网络架构搜索(NAS),在很大程度上是独立执行的,并且没有充分考虑移动加
2022-04-19 10:41:25
429
翻译 单目深度估计-NeW CRFs: Neural Window Fully-connected CRFs for Monocular Depth Estimation
从单个图像估计准确的深度是具有挑战性的,因为它本质上是模棱两可和不适定的。虽然最近的作品设计了越来越复杂和强大的网络来直接回归深度图,但我们走的是 CRF (条件随机场)优化的道路。由于计算成本高,CRF 通常在邻域之间而不是整个图之间执行。为了利用全连接 CRF 的潜力,我们将输入拆分为窗口并在每个窗口内执行 FC-CRF 优化,这降低了计算复杂度并使 FC-CRF 可行。为了更好地捕捉图中节点之间的关系,我们利用多头注意力机制来计算多头势函数,该函数被馈送到网络以输出优化的深度图。然后我们构建一个自下而
2022-03-24 17:20:26
2660
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人