LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale
2022年的论文,提出把XW过程里能量化的量化掉,不能量化的原样计算。
从图里也能看出来它怎么搞的。
- 按张量并行的方式彻底拆分X和W。
- 看X每一列是否足够大,够大,它就不能量化掉,因为它对结果影响很大。其余的就是量化的对象。
- X和W被分成两组,分别计算,最后相加,和张量并行一样。
缺点:
算子拆分了,一个矩阵乘法搞出两个,是省显存了,速度下来了。而且你8bit也和4bit差一半呢。