ddd497-CSDN博客

转载基于ARM在cpu上做神经网络加速

本文将尝试回答一个简单的问题：什么库/工具包/框架可以帮助我们优化训练模型的推理时间？本文只讨论已为ARM架构芯片提供C / C ++接口的工具包和库（由于嵌入式设备上使用，我们很少Lua 或 Python），限于文章篇幅，不阐述另外一种加速神经网络推理的方法，即修改网络架构，从SqeezeNet架构可看出，修改网络架构是一个可行的方案。基于上述原因，本文涉及的实验只涉及使用Caffe，Tens

2017-04-05 15:37:40 11135

CBLAS是BLAS的C语言接口。BLAS的全称是Basic Linear Algebra Subprograms，中文大概可以叫做基础线性代数子程序。主要是用于向量和矩阵计算的高性能数学库。本身BLAS是用Fortran写的，为了方便C/C++程序的使用，就有了BLAS的C接口库CBLAS。BLAS的主页是http://www.netlib.org/blas/，CBLAS的下载地址也可以在这个页

2017-02-21 10:51:51 2289

转载一维卷积c实现

卷积Y(n)=x(n)*h(n)=∑x(i)h(n-i);举个例子简单点x(n)={1,2,3,4};h(n)=(1,2,3,4);y(0)=x(0)h(0);y(1)=x(0)h(1)+x(1)h(0)y(2)=x(0)h(2)+x(1)h(1)+x(2)h(0);y(3)=x(0)h(3)+x(1)h(

2017-02-13 09:25:25 3368

转载 Caffe使用step by step：caffe框架下的基本操作和分析

caffe虽然已经安装了快一个月了，但是caffe使用进展比较缓慢，果然如刘老师说的那样，搭建起来caffe框架环境比较简单，但是完整的从数据准备->模型训练->调参数->合理结果需要一个比较长的过程，这个过程中你需要对caffe中很多东西，细节进行深入的理解，这样才可以知道为什么能有这样的结果，在训练或者fine-tuning时知道针对调整的方法。下面针对caffe中的使用进行讲解。　　

2016-12-29 14:49:45 316

转载人脸识别必读的N篇文章

一，人脸检测/跟踪人脸检测/跟踪的目的是在图像/视频中找到各个人脸所在的位置和大小；对于跟踪而言，还需要确定帧间不同人脸间的对应关系。 1,Robust Real-time Object Detection. Paul Viola, Michael Jones. IJCV 2004.入选理由：Viola的人脸检测工作使得人脸检测真正变得实时可用。他们发表了一系列文章，这篇是

2016-02-21 11:01:46 401

转载 IplImage中的widthStep大小计算及原理

一直以为IplImage结构体中的widthStep元素大小等于width*nChannels，大错特错！查看OpenCV2.1的源码，在src/cxcore/cxarray.cpp文件中，找到cvInitImageHeader函数，函数中对widthStep大小赋值如下：image->widthStep = (((image->width * image->nChannels *

2015-11-27 17:37:29 442

转载 CUDA核函数及运行时参数

核函数是GPU每个thread上运行的程序。必须通过__gloabl__函数类型限定符定义。形式如下： __global__ void kernel(param list){ }核函数只能在主机端调用，调用时必须申明执行参数。调用形式如下： Kernel>>(param list);>>运算符内是核函数的

2015-09-30 09:40:29 817

原创 cuda运行程序记录时间

这里得到的elapsedTime就是执行GPU端代码所需时间，单位ms。总流程为：cudaEvent_t start, stop;cudaEventCreate(&start);cudaEventCreate(&stop);cudaEventRecord(start, 0);// 在GPU上执行一些工作cudaEventRecord(stop, 0);cudaE

2015-07-28 17:07:26 1395

原创 GPU上和CPU上执行函数时间比较

clock()函数来计算时间，由于程序比较大，运行的时间比较长，但每次运行完这后得到的结果都是负数，有些不解，查些资料后才明白了，原来clock_t是long型，其取值范围是-2147483648~2147483648，利用clock()函数取得的时间最大值为2147483648 ／ 1000000 ＝ 2147.483647s，大约为35.79分钟，也就是说利用clock()函数只能记录的运行时

2015-07-28 17:03:04 1826

deng497的博客