模型量化转int8

最新推荐文章于 2024-02-23 23:18:15 发布

jp_666

最新推荐文章于 2024-02-23 23:18:15 发布

阅读量209

点赞数

文章标签： python numpy 机器学习

本文链接：https://blog.csdn.net/jp_666/article/details/132259968

版权

在模型部署阶段，考虑到模型大小，通常会做量化，其中一种方式是把模型输出转成int8，这样可以节省存储空间。

下面是转成int8的代码

def normalize8(I: np.ndarray):
    mx = max(np.abs(I.max()), np.abs(I.min()))
    mn = -mx

    I = np.round(((I - mn) / (2 * mx)) * 255) - 128
    return I.astype(np.int8)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

jp_666

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
模型量化转int8

在模型部署阶段，考虑到模型大小，通常会做量化，其中一种方式是把模型输出转成int8，这样可以节省存储空间。下面是转成int8的代码。
复制链接

扫一扫

AI模型部署-TensorRT模型INT8量化的Python实现

DeepDriving

07-21

1832

目前深度学习模型的参数在训练阶段基本上都是采用32位浮点（FP32）来表示，以便能有更大的动态范围用于在训练过程中更新参数。然而在推理阶段，采用FP32的精度会消耗较多的计算资源和内存空间，为此，在部署模型的时候往往会采用降低模型精度的方法，用16位浮点（FP16）或者8位有符号整型（INT8）来表示。从FP32转换为FP16一般不会有什么精度损失，但是FP32转换为INT8则可能会造成较大的精度损失，尤其是当模型的权重分布在较大的动态范围内时。虽然有一定的精度损失，但是转换为INT8。

实战演习（六）——用LSTM算法实现进制转换运算

livan1234的博客

07-27

594

笔者是一个痴迷于挖掘数据中的价值的学习人，希望在平日的工作学习中，挖掘数据的价值，找寻数据的秘密，笔者认为，数据的价值不仅仅只体现在企业中，个人也可以体会到数据的魅力，用技术力量探索行为密码，让大数据助跑每一个人，欢迎直筒们关注我的公众号，大家一起讨论数据中的那些有趣的事情。我的公众号为：livandata LSTM是RNN的一个延伸算法，一般可以用在文字处理等序列化内容上，下面有一个小...

参与评论您还未登录，请先登录后发表或查看评论

paddleSlim（二）量化训练

qq_55796594的博客

02-14

3229

1.简介量化训练要解决的问题是将FP32浮点数量化成INT8整数进行存储和计算，通过在训练中建模量化对模型的影响，降低量化误差。 PaddleSlim使用的是模拟量化训练方案，一般模拟量化需要先对网络计算图进行一定的处理，先在需要量化的算子前插入量化-反量化节点，再经过finetune训练减少量化运算带来的误差，降低量化模型的精度损失。 2.paddleSlim量化步骤构建模型和数据集进行预训练量化训练导出预测模型 2.1量化训练API classpaddleslim.QAT(c

模型量化--int8量化

最新发布

qq_44815135的博客

02-23

1573

在深度学习领域，模型通常采用float32这种数据格式进行训练和存储，每个参数占据32比特（即4字节）的空间。例如，一个大小为7b的模型会需求28b的显存或内存资源。但如果能够将参数所需的存储空间压缩至16比特、8比特甚至4比特，那么就能显著减少所需的存储容量，并可能加快模型的推理速度。量化可以应用在模型的参数（即权重）、激活值，甚至是在训练过程中更新的梯度上。参数的量化通常相对容易实施，因为模型的参数分布通常比较稳定。

int8模型量化

ab0902cd的博客

10-30

4240

1. 量化原理模型量化是用8bit整数去表示32bit浮点型小数的过程，模型量在移动端是比不可少的步骤，量化化的好处主要在于减少模型的体积，加快模型的计算速度，但在一定程度上会损失模型的精度。模型量化的原理：这里的S和Z均是量化参数，而Q和R均可由公式进行求值，不管是量化后的Q还是反推求得的浮点值R，如果它们超出各自可表示的最大范围，那么均需要进行截断处理，具体可参考：http...

基于python的tensorrt int8 量化yolov5 onnx模型实现

03-26

在TensorRT中，INT8量化是一种常用的模型优化技术，它通过将模型的计算从浮点精度（通常为FP32）转换为8位整数，显著减少了内存需求和推理时间，同时在许多情况下仍能保持良好的精度。量化过程包括两个主要步骤：...

yolov5模型，yolov5量化模型，yolov5 FP16 FP32 INT8量化模型

08-03

yolov5模型，yolov5量化模型，yolov5 FP16 FP32 INT8量化模型，yolov5s.onnx,yolov5s.pt,yolov5s.engine,yolov5s.trt,yolov5s_fp16.engine,yolov5s_fp16_int8_engine,yolov5s_int8.engine，模型量化，各种量化版本...

模型部署+目标检测YOLOv5+tensorrt加速 - int8量化

02-27

由于C++语言的运行优势，多数算法模型在实际应用时需要部署到C++环境下运行，以提高算法速度和... 2.C++环境下通过tensorrt进行模型导入和调用，过程中实现int8量化加速适合刚开始部署模型的小白或者研究者，内附教程

Pytorch 模型量化

07-01

Pytorch 模型量化.姿态估计使用 Pytorch 进行模型的静态量化、保存和加载.运行pth_to_int.py以获取量化模型。运行evaluate_model.py进行推理。模型尺寸从200M减小到50M。推理时间缩短约 20%。

NCNN的人体姿态评估模型，已做int8量化

02-12

可以输出17个点的简易姿态评估模型，我自己的企业级产品就在使用，效果还是不错的，只要背景不是乱得太可以，或者衣服的颜色与背景混合严重，基本上都是可以正常的评估出来的。这个模型的好处就是速度非常快，基本上...

Int8量化-介绍

爱CV

04-27

6142

原文前言本系列的目是详细叙述当前移动端Int8的方方面面，从最底层的Int8的汇编层实现原理以及汇编性能优化手段，到中间层的移动框架的配套代码实现（标准就以NCNN为例吧），以及上层对应的PC端量化方法（各种论文思路）总结及实现，和最后模型端re-train的方法、策略及指标介绍。此外，利用PowerPerf（一种专门针对ARM CPU应用性能优化而开发的调试工具）对卷积kernel（汇编算子）各项硬件参数指标进行量化优化也是本文的重点，旨在提炼出一套通用的汇编代码调优方法论，从而使得Powe

模型加速之INT8量化原理及实践（基于TensorRT）

Nicholson的博客

08-13

1万+

模型量化的简要总结： 1、量化的定义是将网络参数从Float-32量化到更低位数，如Float-16、INT8、1bit等。 2、量化的作用：更小的模型尺寸、更低的功耗、更快的计算速度。下图是不同数据结构比较及执行基本运算时的计算消耗。 3、浮点数均匀间隔映射的量化过程称为均匀量化，否则是非均匀量化，也可以叫作线性量化和非线性量化。 4、被映射区间关于0点对称分布称为对称量化，比如需要映射的数值范围[-10000,30000]，映射区间为[-127,127]，映射时选取被映射区间为[-30000

Openvino部署YoloX：模型转换和int8量化

weixin_45156863的博客

10-09

555

使用openvino对yolox进行int8量化并测试

【学习体会】INT8定点数和模型量化

LeonJin的博客

01-27

2712

定点，就是约定机器中数据的小数点位置固定不变。在计算机中，通常将数据的小数点固定在数据的最高位之前或者最低位之后。前者称为定点小数，后者称为定点整数。定点小数是纯小数：约定的小数点位置在符号位之后、有效数值部分最高位之前。若数据 x 的形式为 x = x0.x1x2…xn ( 其中x0为符号位，x1～xn是数值的有效部分，也称为尾数， x1为最高有效位 )，则在计算机中的表示形式为：一般说来，如果最末位 xn = 1，前面各位都为 0 ，则数的绝对值最小，即 |x|min = ..

7.TensorRT中文版开发教程-----TensorRT中的INT8量化详解

热门推荐

专注于人工智能领域的小何尚

04-30

1万+

7. 如何使用TensorRT中的INT8 点击此处加入NVIDIA开发者计划 7.1. Introduction to Quantization TensorRT 支持使用 8 位整数来表示量化的浮点值。量化方案是对称均匀量化 - 量化值以有符号 INT8 表示，从量化到非量化值的转换只是一个乘法。在相反的方向上，量化使用倒数尺度，然后是舍入和钳位。要启用任何量化操作，必须在构建器配置中设置 INT8 标志。 7.1.1. Quantization Workflows 创建量化网络有两种工作流程：训

模型量化（int8）系统知识导读

qq_42105426的博客

05-18

3551

量化知识导读（比较全）主要参考资料： 1、 TensorRT Developer Doc 2、量化白皮书高通 2021 3、 Data-Free Quantization Through Weight Equalization and Bias Correction 高通 2019 4、 Integer Quantization for Deep Learning Inference: Principles and Empirical Evaluation Nvidia 2020

【部署加速】模型Int8量化

chen1234520nnn的博客

07-07

2300

1、INT8量化过程一个训练好的深度学习模型，其数据包含了权重（weights）和偏移（biases）两部分，在其进行前向推理（forward）时，中间会根据权重和偏移产生激活值（activation）。 INT8的量化原理简单介绍： TensorRT在进行INT8量化时：1）对权重直接使用了最大值量化)；2）对偏移直接忽略；3）对前向计算中的激活值的量化是重点；对激活值进行INT8量化采用饱和量化：因为激活值通常分布不均匀，直接使用非饱和量化会使得量化后的值都挤在一个很小的范围从而浪费了INT

模型量化技术-INT8

qq_44653420的博客

09-09

502

模型量化技术-INT8

int8量化

jacke121的专栏

03-09

4825

感觉深度学习在移动端的全面开花就在这两年了，其实感觉已经开始开花了。先说说量化是怎么一回事，目前我们在caffe, tensorflow等框架上训练模型（前向和反向）都是使用float 32的，与int 8相比，所需储存空间更大，但是精度更好。量化目前来讲，有两种方式，一种是通过训练量化finetune原来的模型，另一种是直接对模型和计算进行量化。这篇文章先来讲不使用finetune...

onnx模型量化int8

07-25

ONNX模型量化int8是一种将模型数据从浮点表示转换为8位整数表示的优化方法。这种量化方法可以带来多个好处。首先，使用8位整数数据进行计算时，NVIDIA GPU可以使用更快更低成本的8位张量核来执行卷积和矩阵乘法运算...