【KDD2024】基础模型在AI加速器上的推理优化

cabbe4d1d475b65b60a7e879405988c4.png

来源:专知
本文为论文介绍,建议阅读5分钟
我们的教程提供了关于使用AI加速器进行推理优化的全面讨论。

d90654cabd570123c6c851dba917972a.png

强大的基础模型,包括具有Transformer架构的大型语言模型(LLMs),在各个行业引领了生成式人工智能的新纪元。基础模型的出现催生了大量新应用,这些应用涵盖了问答系统、客户服务、图像和视频生成以及代码补全等多个领域。然而,当模型参数数量达到数千亿时,在现实场景中的部署会带来高昂的推理成本和高延迟。因此,业界对使用AI加速器进行成本效益高且快速推理的需求越来越高。为此,我们的教程提供了关于使用AI加速器进行推理优化的全面讨论。

首先,我们概述了基本的Transformer架构和深度学习系统框架,然后深入探讨了用于快速和内存高效的注意力计算的系统优化技术,并讨论了这些技术如何高效地在AI加速器上实现。接下来,我们描述了快速Transformer推理的关键架构元素。最后,我们在同一背景下检视了各种模型压缩和快速解码策略。

cb4386f4b46b344f8bff6c538483e5a1.png

关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。

e59332508a816e47102b4418b5a456be.png

新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值