quantization量化

最新推荐文章于 2023-04-18 16:57:17 发布

落地生根1314

最新推荐文章于 2023-04-18 16:57:17 发布

阅读量2.5k

点赞数 2

分类专栏： Deep Learning 文章标签： Quantization 模型压缩

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_26369907/article/details/90035538

版权

Deep Learning 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

模型压缩常用的方法有：剪枝，分解、蒸馏、量化、轻量级网络模型。记录学习量化时小结。

背景：当前神经网络通常使用浮点数格式存储权重、网络结构等，这是保持模型准确性的有效而且最简单的方法，GPU也可以较好的加速这些计算。但是随着模型加载次数的增加前向推导计算也成正比增加，Quentization能有效解决此问题，它比32位更紧凑的格式来存储数字，并进行计算。

可行性：低精度计算是噪音的另一个来源（待确认？？）

作用: 能减小模型所占空间。

量化方法及计算例子（8bit为例子）：
法一：存储每个层的最小值和最大值，然后将每个浮点值压缩成一个8位整数，在最大值、最小值范围内空间线性划分 256 段，每段用一个唯一的 8-bit 整数表示在该段内的实数值，计算时再转换为浮点数；
例子：某一层参数最小、最大值：-10,10。将其非常256段，0段表示-10,第256段表示10，故128段表示0数值，64段表示-5等等。
之间的浮点数与段数关系为：
在这里插入图片描述
其中X为浮点数，N为段数

左表是真实的网络参数（浮点数），右表是经过quantization量化后的段数。存储量,下降为原本的1/4，运行模型时转换为浮点型，转换公式如下：

其中X为浮点数，N为段数

落地生根1314

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
quantization量化

模型压缩常用的方法有：剪枝，分解、蒸馏、量化、轻量级网络模型。记录学习量化时小结。背景：当前神经网络通常使用浮点数格式存储权重、网络结构等，这是保持模型准确性的有效而且最简单的方法，GPU也可以较好的加速这些计算。但是随着模型加载次数的增加前向推导计算也成正比增加，Quentization能有效解决此问题，它比32位更紧凑的格式来存储数字，并进行计算。可行性：低精度计算是噪音的另一个来源（待确...
复制链接

扫一扫

专栏目录

落地生根1314 CSDN认证博客专家 CSDN认证企业博客

码龄9年

33: 原创

7万+: 周排名

126万+: 总排名

35万+: 访问

: 等级

2754: 积分

53: 粉丝

301: 获赞

59: 评论

1347: 收藏

私信

关注

热门文章

分类专栏

运维 5篇
科研 1篇
工具 18篇
pytorch 8篇
speech 6篇
数据库 2篇
Deep Learning 18篇
python 6篇
English 1篇
CNN 3篇
Android 2篇

最新评论

将一个word文档按页数拆分为多个文档
zzz090805: 想问下拆分后的文件名是以什么命名
WTG Windows系统安装到U盘/移动硬盘
牛马程序员666: 直接搜wtg辅助工具来安装，15制作失败很大原因是因为镜像
WTG Windows系统安装到U盘/移动硬盘
lwei2: 楼主，请问我用14G的硬盘，通过WinToGo弄到正在制作移动设备Windows系统15%的时候，就提示制作失败，这个是为啥呢？
将一个word文档按页数拆分为多个文档
龙潜月七: Sub SplitEveryFivePagesAsDocuments()语法错误是什么情况？word2019的
语音识别数据预处理（添加噪音）和特征提取
xmm21361: 请问（audiomentations增强语音数据）这部分是提高语音抗噪性吗

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。