自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

转载 基于ARM在cpu上做神经网络加速

本文将尝试回答一个简单的问题:什么库/工具包/框架可以帮助我们优化训练模型的推理时间?本文只讨论已为ARM架构芯片提供C / C ++接口的工具包和库(由于嵌入式设备上使用 ,我们很少Lua 或 Python),限于文章篇幅,不阐述另外一种加速神经网络推理的方法,即修改网络架构,从SqeezeNet架构可看出,修改网络架构是一个可行的方案。基于上述原因,本文涉及的实验只涉及使用Caffe,Tens

2017-04-05 15:37:40 11135

转载 cblas安装以及使用实例

CBLAS是BLAS的C语言接口。BLAS的全称是Basic Linear Algebra Subprograms,中文大概可以叫做基础线性代数子程序。主要是用于向量和矩阵计算的高性能数学库。本身BLAS是用Fortran写的,为了方便C/C++程序的使用,就有了BLAS的C接口库CBLAS。BLAS的主页是http://www.netlib.org/blas/,CBLAS的下载地址也可以在这个页

2017-02-21 10:51:51 2289

转载 一维卷积c实现

卷积Y(n)=x(n)*h(n)=∑x(i)h(n-i);举个例子简单点x(n)={1,2,3,4};h(n)=(1,2,3,4);y(0)=x(0)h(0);y(1)=x(0)h(1)+x(1)h(0)y(2)=x(0)h(2)+x(1)h(1)+x(2)h(0);y(3)=x(0)h(3)+x(1)h(

2017-02-13 09:25:25 3368

转载 Caffe使用step by step:caffe框架下的基本操作和分析

caffe虽然已经安装了快一个月了,但是caffe使用进展比较缓慢,果然如刘老师说的那样,搭建起来caffe框架环境比较简单,但是完整的从数据准备->模型训练->调参数->合理结果需要一个比较长的过程,这个过程中你需要对caffe中很多东西,细节进行深入的理解,这样才可以知道为什么能有这样的结果,在训练或者fine-tuning时知道针对调整的方法。下面针对caffe中的使用进行讲解。  

2016-12-29 14:49:45 316

转载 人脸识别必读的N篇文章

一,人脸检测/跟踪人脸检测/跟踪的目的是在图像/视频中找到各个人脸所在的位置和大小;对于跟踪而言,还需要确定帧间不同人脸间的对应关系。 1,Robust Real-time Object Detection. Paul Viola, Michael Jones. IJCV 2004.入选理由:Viola的人脸检测工作使得人脸检测真正变得实时可用。他们发表了一系列文章,这篇是

2016-02-21 11:01:46 401

转载 IplImage中的widthStep大小计算及原理

一直以为IplImage结构体中的widthStep元素大小等于width*nChannels,大错特错!查看OpenCV2.1的源码,在src/cxcore/cxarray.cpp文件中,找到cvInitImageHeader函数,函数中对widthStep大小赋值如下:image->widthStep = (((image->width * image->nChannels *

2015-11-27 17:37:29 442

转载 CUDA核函数及运行时参数

核函数是GPU每个thread上运行的程序。必须通过__gloabl__函数类型限定符定义。形式如下:                __global__ void kernel(param list){  }核函数只能在主机端调用,调用时必须申明执行参数。调用形式如下:                Kernel>>(param list);>>运算符内是核函数的

2015-09-30 09:40:29 817

原创 cuda运行程序记录时间

这里得到的elapsedTime就是执行GPU端代码所需时间,单位ms。总流程为:cudaEvent_t start, stop;cudaEventCreate(&start);cudaEventCreate(&stop);cudaEventRecord(start, 0);// 在GPU上执行一些工作cudaEventRecord(stop, 0);cudaE

2015-07-28 17:07:26 1395

原创 GPU上和CPU上执行函数时间比较

clock()函数来计算时间,由于程序比较大,运行的时间比较长,但每次运行完这后得到的结果都是负数,有些不解,查些资料后才明白了,原来clock_t是long型,其取值范围是-2147483648~2147483648,利用clock()函数取得的时间最大值为2147483648 / 1000000 = 2147.483647s,大约为35.79分钟,也就是说利用clock()函数只能记录的运行时

2015-07-28 17:03:04 1826

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除