caffe模型TensorRT部署实践（一）

最新推荐文章于 2024-08-03 02:37:19 发布

无眠栀

最新推荐文章于 2024-08-03 02:37:19 发布

阅读量6.3k

点赞数 5

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/may0324/article/details/90083988

版权

参考代码

TensorRT安装包下的samples/sampleMNIST/sampleMNIST.cpp

1.设置使用的gpu id，如果不设置，默认使用第0块。

cudaSetDevice(3); //set device id

2.定义模型的输入输出和logger

static const int INPUT_H = 299; //输入图像高
static const int INPUT_W = 299;//输入图像宽
static const int CHANNELS = 3;//输入图像通道
static const int OUTPUT_SIZE = 1536;//输出特征维度
static Logger gLogger;

const char* INPUT_BLOB_NAME = "data";//deploy文件中定义的输入层名称
const char* OUTPUT_BLOB_NAME = "pool_8x8_s2";//deploy文件中定义的输出层名称

3.定义GIE模型，并将训练好的caffe模型转换到GIE模型

// create a GIE model from the caffe model and serialize it to a stream
IHostMemory *gieModelStream{nullptr};
caffeToGIEModel("deploy.prototxt", "inceptionv4.caffemodel", std::vector < std::string > { OUTPUT_BLOB_NAME }, 1, gieModelStream);

4.准备输入图像，可以采用opencv读取，也可用其他方式，根据情况编写与处理部分，最终存入一个float*中

    float data[INPUT_H*INPUT_W*CHANNELS];

    cv::Mat im = imread("gap.jpg") ;
    cv::resize(im, im, cv::Size(INPUT_W, INPUT_H));
    int mean_data[] = {104, 117, 123}; //均值
    float *pdata = data;
    for(int c = 0; c < CHANNELS; ++c)
    {
        for(int h = 0; h < INPUT_H; ++h)
        {
            for(int w = 0; w < INPUT_W; ++w)
            {
                *pdata++ = float(im.at<Vec3b&g

最低0.47元/天解锁文章

关注

5
点赞
踩
17

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

无眠栀 CSDN认证博客专家 CSDN认证企业博客

码龄15年

29: 原创

9万+: 周排名

123万+: 总排名

19万+: 访问

: 等级

1833: 积分

119: 粉丝

92: 获赞

148: 评论

173: 收藏

私信

关注

热门文章

分类专栏

最新评论

ARM NEON常用函数总结
Hannah&Judy: [code=csharp] #include <stdio.h> #include <arm_neon.h> int main() { float arr[] = { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 }; int len = sizeof(arr) / sizeof(arr[0]); int dim_x4 = len / 4; int left_x4 = len % 4; float *p = arr; // 创建新的指针p指向数组首元素地址,p与arr独立 float32x4_t sum_vec = vdupq_n_f32(0.0); // 复制创建一个4元素vector sum_vec,并初始化元素为0 for (int dim = 0; dim < dim_x4; dim++) { p = arr + dim * 4; // 更新指针位置 float32x4_t data_vec = vld1q_f32(p); // 从地址p开始load四个元素存至vector data_vec sum_vec = vaddq_f32(sum_vec, data_vec); // vector相加,结果存入新的vector } float32_t sum = vgetq_lane_f32(sum_vec, 0) + vgetq_lane_f32(sum_vec, 1) + vgetq_lane_f32(sum_vec, 2) + vgetq_lane_f32(sum_vec, 3); p += 4; // 更新指针位置到剩余元素起始地址 for (int left = 0; left < left_x4; left++) { sum += *(p + left); //对于剩下的少于4个的元素，依次计算累加即可 } printf("sum = %f\n", sum); return 0; } [/code]
Linux大数据处理踩坑实录
zaaac: 宝贝棒！
caffe模型TensorRT部署实践（一）
Tisfy: 好像拨开云雾见青天
Deep Compression阅读理解及Caffe源码修改
霹雳大帅哥: 兄弟你懂了没我也有疑惑
Deep Compression阅读理解及Caffe源码修改
cybstef: 感谢博主的工作，对我的工作有很大启发。这里讨论一下，博主实现的代码和SongHan论文中的区别。SongHan将网络裁剪（或稀疏化）以及参数量化分成两个独立的部分，相应的有两次重新训练的过程。本项目中将两者合二为一。因为没有具体实践项目代码，所以没有训练过程的收敛状态的信息。按照SongHan所述，裁剪过程重新训练达到的目标是，稳定可接受的精度，以及稳定的裁剪结果，也就是同样的mask，这个掩码就是裁剪过程的结果。然后，在裁剪后的网络上进行，参数量化的操作。类似的，量化过程重新训练的目标是获得稳定的代码书（或者聚类结果）并且精度稳定且可接受。不同过程的训练参数，学习率，动量等等各有特点。项目中合二为一后，重新训练可能存在不收敛的风险。另外是实现细节中的不同（之前也有读者也发现），在梯度按照参数的聚类的序列整合时，论文用的是累加和，项目中采用的是平均值。

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。