1.基本概念:
其实就是将FP32的数据转成int8便于提高计算速度。
一些基本概念:
float value=1.0;
float scale=0.1;
int qt32=round(calue/scale);
char qt8=clip(qt32,qt_min,qt_max);
/*
value:浮点型数据
scale:缩放尺度因子
qt8: 量化结果
roud:取整
clip:阶段函数,控制溢出
qt_min:最小值
qt_max:最大值
量化整体框架:
1.基本概念:
其实就是将FP32的数据转成int8便于提高计算速度。
一些基本概念:
float value=1.0;
float scale=0.1;
int qt32=round(calue/scale);
char qt8=clip(qt32,qt_min,qt_max);
/*
value:浮点型数据
scale:缩放尺度因子
qt8: 量化结果
roud:取整
clip:阶段函数,控制溢出
qt_min:最小值
qt_max:最大值
量化整体框架: