模型轻量化中的量化（Quantization）——二值化和三值化

DuHz

已于 2024-11-13 01:40:17 修改

阅读量1.3k

点赞数 11

分类专栏：轻量化模型文章标签：人工智能深度学习机器学习神经网络 python 计算机视觉 sklearn

于 2024-11-13 01:24:45 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44648285/article/details/143727679

版权

模型轻量化中的量化（Quantization）——二值化和三值化详解

目录

简介
二值化和三值化的基本概念
二值化和三值化的数学基础
二值化和三值化的步骤
二值化和三值化的方法
- 5.1 二值化（Binary Quantization）
- 5.2 三值化（Ternary Quantization）
二值化和三值化的优缺点
二值化和三值化的应用实例
代码示例
- 8.1 代码说明
总结

简介

随着深度学习模型的规模和复杂度不断增加，模型在存储和计算上的需求也急剧上升，给实际应用尤其是资源受限的设备（如移动设备、嵌入式系统等）带来了巨大的挑战。量化（Quantization）作为一种有效的模型轻量化技术，通过将模型的高精度参数和激活值转换为低精度表示，显著减少模型的存储空间和计算量。其中，二值化和三值化是极端的量化方法，分别将权重和激活值限制为两种或三种可能的值，从而实现更高的压缩率和计算效率。本文将详细介绍二值化和三值化的基本概念、数学基础、具体步骤和方法，并通过代码示例展示其实现过程。

二值化和三值化的基本概念

二值化（Binary Quantization）

二值化是一种极端的量化方法，将模型的权重和激活值限制为两个可能的值，通常为 $- 1$ 和 $+ 1$ 或 $0$ 和 $1$ 。这种方法可以大幅减少模型的存储需求，并且在硬件实现上具有显著的计算优势，因为二值化的运算可以使用位运算代替浮点运算。

三值化（Ternary Quantization）

三值化将模型的权重和激活值限制为三个可能的值，通常为 $- 1$ 、 $0$ 和 $+ 1$ 。相比于二值化，三值化在保持一定的模型性能的同时，仍然能够显著减少存储和计算需求。三值化在表达能力上优于二值化，能够更好地捕捉权重的微妙变化。

二值化和三值化的数学基础

二值化的数学表达

假设模型的权重为 $W$ ，二值化的目标是将 $W$ 转换为二值权重 $W_b$ ，其中：

$W_b = \text{sign}(W)$

其中， $\text{sign}(\cdot)$ 是符号函数，定义为：

$\text{sign}(x) = \begin{cases} 1 & \text{if } x \geq 0 \\ -1 & \text{if } x < 0 \end{cases}$

三值化的数学表达

三值化的目标是将权重 $W$ 转换为三值权重 $W_t$ ，其中：

最低0.47元/天解锁文章

博客等级

码龄6年

网络与通信领域新星创作者

462
原创

1万+
点赞

1万+
收藏

5676
粉丝

关注

私信

热门文章

分类专栏

最新评论

现代谱分析方法——前向-后向方法详解
软件老兵: 不好意思是我错了，就应该是这么算的。不能简单乘积，前面观测不一样乘积系数不一样。我修改了一下python程序中的输入O，依次改成：[0],[1],[0,0],[0,1],[1,0],[1,1],[0,0,0],[0,0,1]等等，就会发现规律。[0]+[1]的概率等于1，[0,0]+[0,1]的概率等于[0]的概率，[1,0]+[1,1]的概率等于[1]的概率。下一层的各种可能总概率只和等于上一层的概率，任意时间所有可能观测累加总概率是1。
现代谱分析方法——前向-后向方法详解
DuHz: 前向算法并不是“并不会根据观测序列去改变不同时刻的状态概率”，前向算法的计算依赖于观测序列。其次，前向算法的状态概率不仅会由初始状态概率和状态转移概率决定，还会受到观测序列对每个时刻的影响。并且观测序列的总概率并不是各时刻状态概率的乘积，而是通过对所有时刻的状态概率求和得到的
现代谱分析方法——前向-后向方法详解
软件老兵: 引用「α 1 (i)=π i b i (O 1 ),for i=1,2,…,N」前向算法并不会根据观测序列去改变不同时刻的状态概率，不同时刻状态概率是由初始状态概率和状态转移概率决定的。不同时刻t的各状态概率确定后，计算该时刻t被观测为k的概率，观测序列总概率为不同时刻概率的乘积。
稀疏模型（Sparse Models）——稀疏贝叶斯学习方法详解
DuHz: Laplace Prior是L1范数先验，估计稀疏信道时识别非零系数更厉害些，Student-t Prior一般适用信道中有较强噪声或异常值的情况。ARD（自动相关分布）是近似推断方法，肯定会损失精度的，但可以提高效率
稀疏模型（Sparse Models）——稀疏贝叶斯学习方法详解
2201_75418629: 自己目前在学稀疏信道估计方面，所以想看看贝叶斯估计在这方面的一些应用

大家在看

最新文章

2025

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

DuHz 喜欢就支持一下 ~ 谢谢啦！

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。