1 前言
随着深度学习模型规模的不断扩大,百亿规模的大模型在各种下游任务中展现出卓越的性能。然而,由于硬件推理成本高昂以及大模型对显存和计算资源的需求巨大,导致其在一些低端设备上运行面临挑战。本文将介绍如何通过优化模型结构和利用显卡特性,实现百亿大模型在显存较为有限的GTX1060显卡上高效运行。
2 优化模型结构
2.1 量化方案
百亿规模的大模型通常需要庞大的显存来存储模型参数和中间结果。为应对这一挑战,我们采用了深度学习中常用的量化方案,将模型参数和运算结果以更低的精度表示,以显著减小显存占用。对于CPM-2模型,我们采用了一系列的量化策略,从FP64到FP32,再到FP16和FP8。更进一步,为提高模型运算效率,我们引入了INT8代替FP8,通过将矩阵运算的精度降低,进一步提升了性能。
2.2 内存占用优化
CPM-2模型对显存的高需求是一个挑战,特别是在显存有限的设备上。通过矩阵行列级别的量化方案,我们成功将显存需求从22G降低至11G。将FP8数据扩大到INT8进行矩阵运算,再将结果缩小回FP8,这一过程有效减小了模型的