源自2024年CCF大模型论坛清华大学教授汪玉老师的报告。 研究目标 核心思想 算法模型设计和剪枝可以降低工作负载,降低总计算量、存储量; 量化使得在单位面积内能够存放更多的算力,提升资源利用率。 具体实现 量化 根据量化敏感性为各层分配不同的量化位宽。 算子优化 负载小的算子切的细一点,提高并行度。 负载大的算子使用double buffer,重叠访存。 计算图优化 团队成就 评 InfoQ:CCF大模型论坛报导