模型部署
文章平均质量分 58
guopeiAI
曾任小米AI Lab图像算法工程师, 现任国内知名公司算法专家, 微信号:guopeiAI
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MiniCPM-V 4.6:1.3B 参数手机端多模态大模型,超越 Qwen3.5-0.8B 和 Gemma4-2B,iOS/Android/鸿蒙三端部署,视觉编码计算量砍半
摘要: MiniCPM-V 4.6是OpenBMB推出的1.3B参数多模态大模型,专为手机端设计,支持iOS/Android/鸿蒙三端部署,视觉编码计算量减少50%。其性能超越Qwen3.5-0.8B和Gemma4-2B,在Artificial Analysis智能指数得分13分,同时支持4x/16x混合压缩以平衡精度与速度。系列中的MiniCPM-o 4.5(9B)具备全双工多模态能力,支持实时视觉、语音交互,接近Gemini 2.5 Flash水平。核心技术包括LLaVA-UHD v4早期压缩和RLAI原创 2026-06-10 19:29:35 · 29 阅读 · 0 评论 -
NVIDIA CV-CUDA:GPU 全流程加速计算机视觉,pip 一键安装替代 OpenCV,微软/腾讯/百度/字节全在用,云级图像处理吞吐量飙升 10 倍
NVIDIA CV-CUDA 是一个由 NVIDIA 与字节跳动联合开发的 GPU 加速计算机视觉库,旨在通过全流程 GPU 处理显著提升计算机视觉任务的效率。该库支持图像解码、预处理、数据增强等操作完全在 GPU 上执行,避免了传统 CPU-GPU 数据传输带来的性能瓶颈。通过零拷贝技术和批处理优化,CV-CUDA 可将吞吐量提升 10 倍以上,延迟降低 90%,同时释放 CPU 资源。它支持 Python 和 C++ API,兼容主流 AI 框架,并已应用于微软 Bing、腾讯云、百度等产品中。用户可通原创 2026-06-10 19:19:22 · 194 阅读 · 0 评论 -
ONNX 模型还能这样改!可视化编辑器 onnx-modifier:删节点/加节点/改权重/调输入,点几下鼠标全搞定
ONNX模型可视化编辑器onnx-modifier:高效修改模型的神器 onnx-modifier是一款基于Netron和Flask的可视化ONNX模型编辑器,支持通过浏览器或桌面应用直接修改模型,无需编写复杂脚本。主要功能包括: 节点操作:删除/添加节点,支持整条链路删除或精确删除 权重编辑:手动修改或导入.npy文件调整权重 输入输出调整:重命名、添加新输入/输出,修改输入形状(支持动态batch) 属性修改:实时调整节点参数(如卷积stride) 优势: 可视化交互:点选操作替代反复调试脚本 实时预览原创 2026-06-09 21:01:25 · 159 阅读 · 0 评论 -
炸裂!29K Star 的神经网络可视化神器 Netron,拖入模型文件秒出网络结构图,支持 20+ 格式全平台运行
Netron是一款29K Star的神经网络可视化神器,支持20+模型格式,可一键拖入模型文件(如ONNX/PyTorch/TensorFlow等)秒出交互式网络结构图。核心功能包括:可视化模型架构、查看节点参数与张量形状、跨平台支持(Web/桌面/Python)、支持主流深度学习框架格式。无需复杂配置,通过浏览器、本地安装或Python库即可快速使用,极大提升模型调试与理解的效率,是深度学习开发者必备工具。开源项目地址:https://github.com/lutzroeder/netron。原创 2026-06-09 19:19:31 · 616 阅读 · 0 评论 -
onnx转TFLite实现本地化部署
将 ONNX 模型转换为 TFLite 模型需要 两个步骤:先将 ONNX 转换为 TensorFlow 格式(如 SavedModel),再通过 TensorFlow Lite 转换工具生成 TFLite 模型。本文是详细操作流程(在CPU下即可完成)。原创 2025-05-20 17:26:44 · 1117 阅读 · 0 评论 -
python推理代码跨平台部署
我们经常训练好的模型需要部署,有时候算法组和工程组是分开的,这时候就需要我们提供C++的前后处理逻辑,这时怎么调试我们的C++代码呢?模型预测的结果是一个两通道的Mat,我们首先把它保存成yaml形式,比如:offset.yaml。解决方法:把模型推理的结果保存成C++可加载的形式,即可调试C++后处理代码。接下来,你就能流畅的写完你的后处理代码,打包交付啦!原创 2024-01-19 12:07:10 · 752 阅读 · 0 评论 -
TensorRT从理论到实践
用tensorrtx工程直接提取权重文件,中间过程可控;该工程更加灵活,遇到不支持的层,容易解决;该工程实现了主流算法的转化和推理,代码修改量不大即可适配自己的工程。原创 2022-12-11 17:55:32 · 1719 阅读 · 1 评论 -
Android.mk实践
最近做一个项目,在另外一个算法中要集成人脸检测算法库。首先在pc上验证了人脸算法库的正确性,然后在Android studio中集成。deblur工程中的代码是通过Android.mk构建的,初次看一脸懵逼。于是网上查了一下相关资料后仿写。我是参考以前工程里现有的mk写法仿写,各个模块写一个mk文件,负责本模块的编译资源管理,如果的别的模块需要使用本模块的内容那么把本模块的mk文件包含进来就可以了,整体语法跟cmake很像。LOCAL_MODULE就是本模块的名字,LOCAL_SRC_FILES后面是原创 2022-12-05 15:47:18 · 853 阅读 · 0 评论 -
strip指令——减小文件的大小(给文件脱衣服)
strip这个单词, 大家应该早就学过了, 你就记住是脱衣服就行了, 别的不要多想。在linux中, strip也有脱衣服的含义, 具体就是从特定文件中剥掉一些符号信息和调试信息。现在我生成了一个可执行程序,名为:lib_learn通过file命令查看文件是否做过strip结论:我们通过strip命令,使文件大小从16K降到12K,文件依然正常运行。注释:strip不仅可以减小可执行程序的大小,还能缩减动态库和静态库的大小。原创 2022-12-05 12:45:32 · 1012 阅读 · 0 评论 -
手机应用crash定位
参考:https://www.cnblogs.com/willhua/articles/5891895.html。执行上面命令后,开始操作app中导致crash的操作,得到log.txt。原创 2022-09-28 09:54:22 · 1834 阅读 · 0 评论 -
SNPE 模型量化实战
optimizations cle --optimizations bc对应的量化算法效果最佳,但是这种量化算法对模型结构有一定的限制且量化速度较慢,如果使用这种量化算法出现量化失败,可以将–optimizations cle --optimizations bc这两个选项去掉,使用snpe默认的量化算法。然后从/home/对应的路径拷贝至/root/snpe/目录中。准备量化的输入图片数据:首先从测试集中获取N张图片(N的取值范围推荐在50~200之间),然后将图片转换成raw文件,转换脚本可参考。原创 2022-09-26 11:09:04 · 3098 阅读 · 8 评论 -
Libtorch模型部署指南
前言:libtorch是pytorch原生支持的生态,理论上只要是pytorch训练的模型都能用libtorch部署,因为他们共用相同的c++代码。主要参考:Pytorch官网一. PyTorch模型转为Troch Scriptimport torchimport torchvision# An instance of your model.model = torchvision.models.resnet18()script_module = torch.jit.script(model原创 2022-05-18 17:25:08 · 2080 阅读 · 0 评论 -
tensorrt采坑记录
一. 下载对应的安装包查看cuda版本:nvcc -V 显示我的版本是10.2版本查看cudnn版本:cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2显示我的cudnn版本为7.5.0版本在官网下载trt安装包:根据系统、cuda、cudnn下载,下载地址:https://developer.nvidia.cn/nvidia-tensorrt-8x-download由于我需要下载8.x,要求cudnn的最低版本为8.2,原创 2022-02-25 19:34:46 · 1354 阅读 · 0 评论 -
编译问题:clang++: error: unable to execute command: Killed
一. 背景介绍当我在手机端部署模型时,用mace转模型成功,但是在编译时出错。错误栈给了很多提示,其中一句提示就是:clang++: error: unable to execute command: Killed。二. 分析问题与解决该提示指的是内存不够,我的进程操作被杀掉了;解决方法就是增大swap分区的空间。于是我在网上查找解决方法,运行下面命令即可:sudo fallocate -l 4G /swapfilesudo chmod 600 /swapfilesudo mkswap /sw原创 2021-07-21 16:38:47 · 3994 阅读 · 0 评论 -
onnx 模型转换及推理时间对比
1. 环境准备 对比时间,和模型训练的环境相同,可能额外要安装的包是onnxruntime.pip install onnxruntime # for cpupip install onnxruntime-gpu # for gpu2. 测试过程 直接上代码吧,代码就是最好的解释。import cv2import timeimport torchimport numpy as npfrom torch.nn import DataParalle...原创 2021-04-29 20:53:44 · 5407 阅读 · 1 评论 -
MACE在Android手机上部署深度学习模型——采坑记录
1./bin/sh: cmake: command not found 其实就是没有找到cmake, 把cmake添加到环境变量中, 使其生效就可以了。# 配置cmakeexport PATH="/home/CV-deeplearning/cmake-3.18.1-Linux-x86_64/bin:$PATH" 参考:https://zhidao.baidu.com/question/813991431376924892.html2.SDK...原创 2021-04-28 20:49:18 · 621 阅读 · 0 评论 -
通过MACE在Android手机上部署深度学习模型
1. MACE的环境搭建 参考我的博客:MACE的环境搭建——conda实现2. 构建项目 (1)下载MACE项目到本地git clone https://github.com/XiaoMi/mace.git (2) 下载MACE Model Zoo 项目git clone https://github.com/XiaoMi/mace-models.git (3) 编译MACE生成库文件 /path/to/mace...原创 2021-04-28 20:00:05 · 1568 阅读 · 5 评论 -
MACE的环境搭建——conda实现
1.MACE 主页 MACE 的github地址:https://github.com/XiaoMi/mace 小米官方的相关文档:https://mace.readthedocs.io/en/latest/ 对开发环境的要求,可以按照以下指令安装相关的包:2. 创建虚拟环境并安装常见的包 (1) 创建虚拟环境,我把虚拟环境命名为maceconda create -n mace python=3.6 (2)...原创 2021-04-28 09:51:58 · 1296 阅读 · 0 评论 -
pytorch模型转成pt(c++可调用)
将训练的pytorch模型转化为pt(c++可调用),本文主要接受用trace转化方法。原创 2020-09-27 13:31:19 · 5174 阅读 · 3 评论 -
pytorch模型转onnx
参考pytorch官网,将一个分类模型转化为onnx。原创 2020-09-27 09:51:19 · 696 阅读 · 0 评论
分享