大模型
文章平均质量分 79
Luchang-Li
这个作者很懒,什么都没留下…
展开
-
大语言模型LLM权重4bit向量量化(Vector Quantization)/查找表量化基本原理
针对大语言模型权重的4bit量化,除了常规的广泛使用的group-wise均匀量化,如GPTQ, AWQ等等,苹果提出了一种称为Palettization的lookup table (LUT)查找表量化技术,高通也提出了新的一种向量量化技术,其实这两种技术原理基本上是相同的原创 2024-09-06 10:12:49 · 1378 阅读 · 0 评论 -
线性代数教材书籍推荐
INTRODUCTI N TO LINEAR ALGEBRA, 线性代数导论,GILBERT STRANG ,有中译本。原创 2024-09-03 17:01:08 · 647 阅读 · 0 评论 -
TensorRT Model Optimizer量化和模型导出
TensorRT Model Optimizer量化和模型导出原创 2024-08-07 17:38:45 · 537 阅读 · 0 评论 -
大语言模型LLM量化激活outliers异常值抑制
突破性技术: 大语言模型LLM量化激活outliers异常值抑制原创 2024-06-03 10:15:23 · 2824 阅读 · 4 评论 -
Transformer 从attention到grouped query attention (GQA)
Transformer 从Attention到grouped query attention (GQA)原创 2024-05-28 16:38:54 · 1298 阅读 · 0 评论 -
LLM激活稀疏性加速
LLM激活稀疏性加速原创 2024-04-10 09:21:08 · 336 阅读 · 0 评论 -
导出谷歌gemma模型为ONNX
gemma模型导出ONNX原创 2024-03-08 21:05:54 · 1053 阅读 · 6 评论 -
导出LLaMA ChatGlm2等LLM模型为onnx
通过onnx模型可以在支持onnx推理的推理引擎上进行推理,从而可以将LLM部署在更加广泛的平台上面。此外还可以具有避免pytorch依赖,获得更好的性能等优势。原创 2023-08-05 19:15:07 · 5693 阅读 · 0 评论 -
AWQ模型量化实践
AWQ模型量化实践原创 2023-06-28 10:23:02 · 12736 阅读 · 6 评论 -
ZeroQuant-V2 LLM权重与激活量化
ZeroQuant-V2 LLM权重与激活量化原创 2023-06-17 14:52:22 · 1247 阅读 · 0 评论
分享