低比特大模型排行版暨AutoRoundV0.2发布

置顶 PeaceInMind

已于 2024-06-04 13:23:52 修改

阅读量289

点赞数 4

文章标签： transformer chatgpt gpt llama AIGC

于 2024-06-04 11:10:09 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/PeaceInMind/article/details/139435905

版权

由于大量的量化模型没有精度数据，为了让用户更好地找到适配自己的模型或量化算法，最近推出了低比特大模型排行版，评估的指标主要涵盖10个zero shot的任务,如果有什么建议或者意见可以去社区提~目前支持13B以下模型的评估，后面可能随着计算资源的提升会增加模型覆盖的范围。

另外我们最近也发布了[AutoRound](https://github.com/intel/auto-round) V0.2,其中做了若干更新，包括对lm-head量化的支持，可以使得llamav3-8b的W4G128从5.4G降到4.7G，另外也可以做混合bit或者混合group_size的量化和推理，另外最近的更新我们修复了asym kernel的问题，2bit的精度和少数4bit的实测精度有了大量的提升。

在低比特排行榜中，AutoRound在大部分场景中表现都可以

另外我们在2bit中也表现不俗，当然诚实地讲，我们测出AutoRound在llama3中表现还不太满意，目前正在看

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
低比特大模型排行版暨AutoRoundV0.2发布

另外我们最近也发布了AutoRoundV0.2,其中做了若干更新，包括对lm-head量化的支持，可以使得llamav3-8b的W4G128从5.4G降到4.7G，另外也可以做混合bit或者混合group_size的量化和推理，另外最近的更新我们修复了asym kernel的问题，2bit的精度和少数4bit的实测精度有了大量的提升。，评估的指标主要涵盖10个zero shot的任务,如果有什么建议或者意见可以去社区提~目前支持13B以下模型的评估，后面可能随着计算资源的提升会增加模型覆盖的范围。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。