一种大于2GB ONNX模型onnxsim优化方法

Luchang-Li

已于 2023-09-08 17:04:58 修改

阅读量3.7k

点赞数 4

分类专栏：推理引擎文章标签： python ONNX onnxsim 2GB

于 2023-04-24 10:36:51 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013701860/article/details/130337446

版权

推理引擎专栏收录该内容

17 篇文章 6 订阅

订阅专栏

大于2GB模型onnxsim优化很耗时，容易挂掉，而且需要特别大的系统内存。

此外直接优化大于2GB模型可能报错：

model with IR version >= 3 must be specify opset_import for ONNX。

onnx.onnx_cpp2py_export.checker.ValidationError: The model does not have an ir_version set properly.

这里提出一种比较简单的优化大于2GB ONNX模型的方法：

1. 把卷积和矩阵乘的权重（参数量大于某个阈值）替换为ConstantOfShape，从而显著缩小模型大小。

2. 利用onnxsim特性避免折叠（参数量大于某个阈值）ConstantOfShape算子。

需要onnxsim>=0.4.24

避免常量折叠产生大tensor的tile和ConstantOfShape算子的onnxsim命令:

onnxsim --no-large-tensor size_th in_model.onnx out_model.onnx

size_th类似为1KB, 1MB等

3. 对压缩后的模型进行优化和常量折叠后的模型删除ConstantOfShape算子，并替换为原来的权重。

该方法也可以用于其他优化，例如onnx infer shape和opset转换。因为大于2GB模型需要写回到文件才能调用官方infershape，而大于2GB模型opset转换无官方方法。

注意每个ConstantOfShape的value最好不一样，否则onnxsim会合并value和shape相同的ConstantOfShape。

项目代码：

https://github.com/luchangli03/onnxsim_large_model

该方法可以成功用于stable diffusion unet, llama, chatglm等导出的onnx的优化。

该方法可以显著降低onnxsim大模型需要的内存，以及优化时间。

需要注意几点，stable diffusion unet可以采用上面的方法压缩，然后设置压缩模型的输入shape并进行onnxsim优化。但是可能一次优化并不能消除所有的shape算子等动态shape 并且可能出现time_step从[1]变成[-1]的bug。需要重新设置一次输入shape再onnxsim优化一次即可消除所有动态shape算子。最后再进行解压缩。

如果明明设置了静态shape，onnxsim还是优化不完全，可以先删除旧的shape value info，再调用onnx infer shape工具infer shape，再使用onnxsim, 参考：

onnx模型图优化/模型修改_nodes in a graph must be topologically sorted_Luchang-Li的博客-CSDN博客

关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
2
评论
一种大于2GB ONNX模型onnxsim优化方法

一种大于2GB模型onnxsim方法
复制链接

扫一扫

专栏目录

Luchang-Li CSDN认证博客专家 CSDN认证企业博客

码龄10年

133: 原创

2万+: 周排名

5643: 总排名

70万+: 访问

: 等级

5333: 积分

372: 粉丝

427: 获赞

131: 评论

1708: 收藏

私信

关注

热门文章

分类专栏

大模型 8篇
模型轻量化 3篇
推理引擎 17篇
web开发
深度学习编译器 18篇
linux 7篇
win 3篇
pytorch 1篇
TensorFlow 6篇
设计模式 1篇
效率开发 1篇
FPGA 7篇
C++ 20篇
C# 2篇
算法 12篇
CUDA 9篇
自动控制 1篇
傅里叶光学 2篇
傅里叶变换 2篇
单片机STM32 2篇
Matlab 2篇
深度学习 14篇
deep learning 3篇
最大值 1篇
位置 1篇
Python 6篇
正则表达式 1篇
科研相关 1篇

最新评论

大语言模型LLM量化激活outliers异常值抑制
Luchang-Li: 好好看下别人论文咯
大语言模型LLM量化激活outliers异常值抑制
鱼丸小咖: hi，请问qserver和quarote，他们的区别仅仅是是否需要使用随机Hadamard矩阵吗？我也在尝试获取仅旋转不变的预处理模型做后续处理，参考了博主的weight-only-rotation repository，但不知道在哪里可以利用qserver的代码实现weight only rotation，求助博主
SentencePiece android ndk编译
光军先森: hilo,你好。我按照你的步骤，编译生成的lib.a文件大小还是10几MB，请问还有其他步骤吗
2D Transpose算子GPU实现和优化
seekerOfKnowledge: 高通adreno GPU是有shared memory的
大语言模型LLM量化激活outliers异常值抑制
普通网友: 博主的文章让我对这个主题有了全新的认识，细节描写非常到位，让我感受到了博主的深厚功底。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Luchang-Li 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。