-
朴素量化
lm_head需要w8a8, w4a8g32和w4a16g32损失太大。
w4需要per-block, w8需要per-channel -
omniquant 优化w4
per-channel损失较大,需要用per-block -
bmm量化
bmm损失在2-3% -
mxint量化
w4a8g32-mxint太差,w8a8g32-mxint效果可以
Qwen2-1.5B-Instruct量化评估
最新推荐文章于 2025-03-29 23:45:00 发布
朴素量化
lm_head需要w8a8, w4a8g32和w4a16g32损失太大。
w4需要per-block, w8需要per-channel
omniquant 优化w4
per-channel损失较大,需要用per-block
bmm量化
bmm损失在2-3%
mxint量化
w4a8g32-mxint太差,w8a8g32-mxint效果可以