文章目录
- 题目:HAQ: Hardware-Aware Automated Quantization with Mixed Precision
- 时间:2019
- 会议:IEEE Conference on Computer Vision and Pattern Recognition (CVPR)
- 研究机构:韩松
- github: https://github.com/mit-han-lab/haq-release
他引用的论文
A scalable bit-serial matrix multiplication overlay for reconfigurable computing
Bit fusion: Bit-level dynamically composable architecture for accelerating deep neural network
Netadapt: Platform-aware neural network adaptation for mobile applications
1 abstract & introduction &related work
确定每层网络的量化位宽,设计空间过大
- H:硬件平台数量
- M:M个网络模型
- N:一个网络有N层
假设每层网络weight和activation的位宽是1-8bit之间,则可能性有 O ( H ∗ M ∗ 8 2 N ) O(H*M*8^{2N}) O(H∗M∗82N)种
人工定点化时一些的规律:
- 第一层和最后一层位数多一点
- 卷积层更敏感,位宽要比全连接层多
本篇论文的贡献:
- 自动化的Hardware-Aware Automated Quantization (HAQ) framework
- 硬件可以直接反馈
- 强化学习采用了deep deterministic policy gradient
related work
- quantization
- autoML
- efficient model
2 approach
2.1 observation(state space)
这里定义了状态,分成卷积层和全连接层
2.2 action space
一旦硬件的指标不满足,就会降低每层的位宽来满足限制
2.3 硬件的直接反馈
2.4 量化
就是正常的量化策略,先截断,再就近取数
本篇论文的量化可以分成三种:
- 延时限制的量化
- 能耗限制的量化
- 模型大小限制的量化
2.5 reward function奖励函数
奖励函数只跟准确率有关
2.6 agent
利用了这个算法deep deterministic policy gradient(DDPG)