【KDD2024】基础模型在AI加速器上的推理优化

数据派THU

于 2024-07-23 17:01:40 发布

阅读量3

点赞数

文章标签：人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247641847&idx=3&sn=317e59fd9c9c11985d4707213f3225b7&chksm=e82e54d6a692d31dfffd40ff37da68972facbbd5d7c98d067e37c68ae4030f9a54d8f5e50007&scene=126&sessionid=0

版权

来源：专知
本文为论文介绍，建议阅读5分钟
我们的教程提供了关于使用AI加速器进行推理优化的全面讨论。

强大的基础模型，包括具有Transformer架构的大型语言模型（LLMs），在各个行业引领了生成式人工智能的新纪元。基础模型的出现催生了大量新应用，这些应用涵盖了问答系统、客户服务、图像和视频生成以及代码补全等多个领域。然而，当模型参数数量达到数千亿时，在现实场景中的部署会带来高昂的推理成本和高延迟。因此，业界对使用AI加速器进行成本效益高且快速推理的需求越来越高。为此，我们的教程提供了关于使用AI加速器进行推理优化的全面讨论。

首先，我们概述了基本的Transformer架构和深度学习系统框架，然后深入探讨了用于快速和内存高效的注意力计算的系统优化技术，并讨论了这些技术如何高效地在AI加速器上实现。接下来，我们描述了快速Transformer推理的关键架构元素。最后，我们在同一背景下检视了各种模型压缩和快速解码策略。

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

数据派THU

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【KDD2024】基础模型在AI加速器上的推理优化

来源：专知本文为论文介绍，建议阅读5分钟我们的教程提供了关于使用AI加速器进行推理优化的全面讨论。强大的基础模型，包括具有Transformer架构的大型语言模型（LLMs），在各个行业引领了生成式人工智能的新纪元。基础模型的出现催生了大量新应用，这些应用涵盖了问答系统、客户服务、图像和视频生成以及代码补全等多个领域。然而，当模型参数数量达到数千亿时，在现实场景中的部署会带来高昂的推理成本和高...
复制链接

扫一扫