CPU上推理矩阵乘不厉害，那么查表呢？MS的新推理方法T-MAC

本文链接：https://blog.csdn.net/kingsoftcloud/article/details/142674106

我们支持GPU做AI成了王者，除了多核就是因为它的GEMM做的好，换句话说矩阵乘各种优化

那NPU和TPU也是主要因为这个原因被创造出来的

CPU基本支持矩阵就比较难受，因为天生做流水线的，架构决定的，对矩阵乘的优化，也主要是算法优化，比如intel的AMX指令优化，但是还是有限

Llama.cpp呢，它用C写能有很大优势，这是一方面，然后它也可以调度各种cpu的向量化引擎，一定程度上在cpu上可以玩一玩，还有就是量化能力,可是还是不够

CPU做GEMM肯定啥也不是了

那如果是查表呢，就是说有没有一种可能，做深度学习AI这块，Acativation的矩阵A和权重矩阵W相点乘，就不要硬去大维度乘大维度，而是拆成小的东西互相计算再加呗，反正也能得到最终的矩阵

这个想法肯定是可行的，那就实现它

MS 就把这个东西做出来了，虽然现在是试行版，论文也过了eursys了，被入选了

论文地址：

T-MAC: CPU Renaissance via Table Lookup for Low-Bit LLM Deployment on Edge (arxiv.org)

刚才说了Llama.cpp是挺成功的项目了，量化可以让它在多种非GPU平台上跑，但是其实量化机制，其实对资源占用是部分友好，在低精度到高精度匹配这块，也就是mpGEMM，即multi-presion混合精度，来回转精度的时候，还是挺占资源的

先看一个普通的量化推理是咋做的

加入你有2个32位浮点数表示的权重矩阵W和activation的矩阵A，它俩一起乘太大了，显存装不进去，算起来也费事

W（权重矩阵）: | 0.25 | -0.75 | 1.50 | | 1.00 | 2.00 | -1.00 | | 0.00 | 0.50 | -0.50 | A（输入激活矩阵）: | 1.00 | 0.25 | | -1.50 | 1.00 | | 0.75 | -1.25 |

你需要先量化了，比如int8方式量化

假设你的缩放因子0.25,然后我们给他int了

W（权重矩阵，int8）: | 1 | -3 | 6 | | 4 | 8 | -4 | | 0 | 2 | -2 | A（输入激活矩阵，int8）: | 4 | 1 | | -6 | 4 | | 3 | -5 |

这样两个8位整数的矩阵相乘不就省算力又省显存了吗

低精度计算：Y （int8）: | (1*4) + (-3*(-6)) + (6*3) | (1*1) + (-3*4) + (6*(-5)) | | (4*4) + (8*(-6)) + (-4*3) | (4*1) + (8*4) + (-4*(-5)) | | (0*4) + (2*(-6)) + (-2*3) | (0*1) + (2*4) + (-2*(-5)) | 结果： |-4 + 18 + 18 = 40 | 1 - 12 - 30 = -41 | | 16 -48 - 12 = -44 | 4 + 32 + 20 = 56 | | 0 - 12 - 6 = -18 | 0 + 8 + 10 = 18 |

但是你算这个东西对我来说没有用啊，我还得高精度表示，就是弄个逆向

（FP32，浮点数结果）: | 40 * 0.25 = 10.0 | -41 * 0.25 = -10.25 | |-44 * 0.25 = -11.0 | 56 * 0.25 = 14.0 | |-18 * 0.25 = -4.5 | 18 * 0.25 = 4.5 |

这一来一回实际上就会丢失了好多的细节和造成的来回的误差，那么实际输入的时候是int8，其实算的时候W和A已经是float16或者int32了，这样你得到的值是相对精确的，这块好理解把，但是占地方。

MS的这个T-MAC，就是想了另一个套路，就是大的算着费劲，那我先把这些矩阵都给缩小，然后小矩阵之间的矩阵乘，我都给算出来值来，然后你要大矩阵之间的点乘，我提前知道大矩阵包含的小矩阵有哪些，然后查出来值再做一次结合就能算出来(矩阵计算基操)

这样虽然说我看似这个与计算挺麻烦但是我后面都查表了，查表的速度那比在线计算可是要快多了的

看一下它的设计思路