SELF-SELECTED ATTENTION SPAN FOR ACCELERATING LARGE LANGUAGE MODEL INFERENCE

本文是LLM系列文章,针对《SELF-SELECTED ATTENTION SPAN FOR ACCELERATING LARGE LANGUAGE MODEL INFERENCE》的翻译。

加速大型语言模型推理的自选注意力跨度

摘要

大型语言模型(LLM)可以解决具有挑战性的任务。然而,由于在生成新token时必须处理的token数量不断增加,它们在现代GPU上的推理计算效率非常低。为了解决这种低效问题,我们利用LLM的问题解决能力来优化其推理时间效率。我们通过两个具体任务进行演示:(a)计算复杂的算术表达式;(b)总结新闻文章。对于这两个任务,我们创建自定义数据集来微调LLM。微调的目标有两个:第一,让LLM学会解决评估或总结任务,第二,训练它确定任务每一步所需的最小注意力持续时间。因此,微调模型能够在推理过程中将这些自我识别的最小注意力跨度实时转换为稀疏注意力掩码。我们开发了一个自定义CUDA内核,以利用减少的上下文。我们证明,使用这个自定义CUDA核可以将LLM推理的吞吐量提高28%。我们的工作提供了一个端到端的演示,表明训练LLM自我选择他们的注意力跨度可以加速解决现实世界任务的自回归推理。

1 引言

2 背景

3 自选注意力跨度

4 实验结果

5 附加研究

6 相关工作

7 讨论

可解释性。大型语言模型的训练成本可能高达数百万美元。这种高成本使得LLM的开发人员理所当然

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
加速基于相似度模型匹配——使用即时相似度保留哈希算法 摘要: 模型匹配是软件工程领域中的一个重要问题。使用相似度匹配方法可以有效地处理模型匹配问题,但是这种方法在大规模模型匹配时存在计算复杂度高的问题。为了解决这个问题,我们提出了一种基于即时相似度保留哈希算法的加速相似度匹配方法。该方法通过将模型元素映射到哈希表中的桶中,实现了快速的相似度计算。我们在两个实际项目中进行了实验,结果表明,我们的方法可以有效地提高相似度匹配的速度,同时保持与传统相似度匹配方法相同的匹配精度。 关键词:模型匹配、相似度匹配、哈希算法、加速 Abstract: Model matching is an important problem in the field of software engineering. Similarity-based matching methods can effectively handle model matching problems, but they suffer from high computational complexity when dealing with large-scale model matching. To address this issue, we propose an accelerated similarity-based matching method based on on-the-fly similarity preserving hashing. This method achieves fast similarity calculation by mapping model elements into buckets in a hash table. We conducted experiments on two real projects, and the results show that our method can effectively improve the speed of similarity matching while maintaining the same matching accuracy as traditional similarity matching methods. Keywords: Model matching, similarity-based matching, hashing algorithm, acceleration
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值