EMNLP 2023 | SAMP:基于自适应混合精度的训练后量化模型推理库

SAMP是一个针对文本处理的推理库,采用自适应混合精度技术,平衡计算精度和推理速度。它在Transformer模型中自动控制浮点和整型运算,实现在量化推理加速的同时保持高精度。相比于全INT8量化,SAMP在计算精度和推理效率方面表现更优,适用于多种NLP任务,降低了训练后量化推理的工业应用难度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

eea340f2693459d0d71d49aedcd39556.gif

©PaperWeekly 原创 · 作者 | 田荣

单位 | 快手

本文内容源自发表于计算机人工智能领域顶会 EMNLP 2023(The 2023 Conference on Empirical Methods in Natural Language Processing),由快手、腾讯等单位联合共同完成。

81a58abb5e79d69eb951045e6ae82189.png

论文标题:

SAMP: A Model Inference Toolkit of Post-Training Quantization for Text Processing via Self-Adaptive Mixed-Precision

论文作者:

Rong Tian, Zijing Zhao, Weijie Liu, Haoyan Liu, Weiquan Mao, Zhe Zhao and Kan Zhou

论文链接:

https://aclanthology.org/2023.emnlp-industry.13/

c38296ac9e6376d1845a40ac26569b53.png

三分钟读论文

Powered by AI © PaperWeekly

d9c88c03c00a95c7f66b2f4b1ee5facd.png

摘要

AI 进入大模型时代,模型的计算性能是一个长期被关注的问题。目前工业界推理引擎已经验证半精度浮点(FP16)和 8 位整型(INT8)计算可以大大缩减计算位宽,从而加快模型推理速度。但已知的 INT8 量化方法使用门槛较高,且精度损失大,会导致模型效果大打折扣。我们推出了一个自适应混合精度推理库(SAMP),通过混合精度架构自动控制浮点型运算和整型运算,使得模型在量化推理加速的同时,保证计算精度。

315cfe78664ae7b48e9f552f6235db2c.png

07bad789be96b6324e5b5404a0e42176.png

研究背景

文本理解是自然语言处理(NLP)领域的基本任务之一,例如在信息检索、对话系统、情感识别、摘要生成、语言模型等多个应用场景中。基于 Transf

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值