模型轻量化
文章平均质量分 83
Luchang-Li
这个作者很懒,什么都没留下…
展开
-
大语言模型LLM权重4bit向量量化(Vector Quantization)/查找表量化基本原理
针对大语言模型权重的4bit量化,除了常规的广泛使用的group-wise均匀量化,如GPTQ, AWQ等等,苹果提出了一种称为Palettization的lookup table (LUT)查找表量化技术,高通也提出了新的一种向量量化技术,其实这两种技术原理基本上是相同的原创 2024-09-06 10:12:49 · 1378 阅读 · 0 评论 -
TensorRT Model Optimizer量化和模型导出
TensorRT Model Optimizer量化和模型导出原创 2024-08-07 17:38:45 · 537 阅读 · 0 评论 -
大语言模型LLM量化激活outliers异常值抑制
突破性技术: 大语言模型LLM量化激活outliers异常值抑制原创 2024-06-03 10:15:23 · 2824 阅读 · 4 评论 -
LLM激活稀疏性加速
LLM激活稀疏性加速原创 2024-04-10 09:21:08 · 336 阅读 · 0 评论
分享