hdanbang-CSDN博客

转载在Android上使用OpenCL调用GPU加速

其实去年就已经把Android上OpenCL的demo做出来了，但是由于种种原因一直没有开源–嗯现在就不吝啬了~奉献给大家~后面在Android上还实现了很多种并行化的算法，比如SHA-1、HDR、K-means、NL-means、SRAD等等，会在近期整理好之后开源的。原文发表在了异构开发技术社区整理成教程是队友做的，十分感谢~原博文地址队友的博客项目gith

2015-10-22 16:25:56 1866

转载 cublasSgemm实现矩阵的相乘

今天想调用cuda的库函数实现矩阵的相乘，但是发现在cublasSgemm中矩阵是按照列主元素进行存储的，也就是一列列的存储的。这和c中一般按照行存储完全相反，后面看了一个帖子http://cudazone.nvidia.cn/forum/forum.php?mod=viewthread&tid=6001&extra=&page=2讲了一个方法，后面理了一下，具体分析如下：比如，我们想求C

2015-10-16 18:10:28 837

转载为什么交换相加的几个数的顺序，却得到了不同的和？

为什么交换相加的几个数的顺序，却得到了不同的和？23.53 + 5.88 + 17.64 = 47.0523.53 + 17.64 + 5.88 = 47.050000000000004在 java 和 javascript 中，都返回了相同的值。我知道计算机中用二进制浮点形式来表示小数，有很多比如 1/3 - 0.333333…都不能正确的表示。也许这个问题有点儿傻，但是我想

2015-09-28 10:04:43 1666

转载 Segmentation fault到底是何方妖孽

前两天和阿彬扯淡的时候(注意不是扯蛋)，他说自己一个礼拜解决了三个Core dump，华丽丽之极，让我对其敬仰、膜拜之情如滔滔之江水，绵绵不绝。今天我也来谈一下Linux环境下开发时经常遇到的“Segmetation fault”的一点点个人看法，也算是抛砖引玉了。 (备注：我的glibc版本是2.12，GCC版本4.4.6，内核版本2.6.32-279) Linux上开发时

2015-09-24 15:11:44 489

转载 CUDA Pro Tip: Occupancy API Simplifies Launch Configuration

CUDA programmers often need to decide on a block size to use for a kernel launch. For key kernels, its important to understand the constraints of the kernel and the GPU it is running on to choose a bl

2015-08-31 20:11:28 515

转载 VS查看PTX代码

首先，声明本人用的是Windows 7操作系统，使用Windows 8操作系统的小伙伴们会启动不了Nsight monitor，原因在于Windows 8操作系统的Framework版本过新，解决办法可以是：安装一个版本旧一点的Matlab，安装起初会提示下载安装旧版本的Framework，安装完成Framework就可以停止安装Matlab了，Nsight monitor也可以启动了。

2015-08-31 16:28:06 1426

转载数据结构：循环队列（C语言实现）

生活中有很多队列的影子，比如打饭排队，买火车票排队问题等，可以说与时间相关的问题，一般都会涉及到队列问题；从生活中，可以抽象出队列的概念，队列就是一个能够实现“先进先出”的存储结构。队列分为链式队列和静态队列；静态队列一般用数组来实现，但此时的队列必须是循环队列，否则会造成巨大的内存浪费；链式队列是用链表来实现队列的。这里讲的是循环队列，首先我们必须明白下面几个问题一、循环队列的基础知识

2015-08-24 20:02:25 538

转载数据结构之队列

队列特性：先进先出（FIFO)——先进队列的元素先出队列。来源于我们生活中的队列（先排队的先办完事）。队列有下面几个操作：InitQueue（）　　 ——初始化队列EnQueue（） ——进队列DeQueue（） ——出队列IsQueueEmpty（）——判断队列是否为空IsQueueFull（） ——判断队列是否已满队列可以由数组

2015-08-24 19:51:14 358

转载 Opencv HOG行人检测源码分析(一) 图画的很好看

OpenCV demo演示见本人的另一篇灌水博客 http://blog.csdn.net/soidnhp/article/details/11720801本人源码分析见 http://blog.csdn.net/soidnhp/article/details/11880425参考文献：《N. Dalal and B. Triggs, “Histograms of Oriented

2015-08-24 15:31:49 653

转载目标检测（Object Detection）原理与实现(六)

基于形变部件模型（Deformable Part Models）的目标检测上节说了基于cascade的目标检测，cascade的级联思想可以快速抛弃没有目标的平滑窗（sliding window）,因而大大提高了检测效率，但也不是没缺点，缺点就是它仅仅是个很弱的特征，用它做分类的检测器也是弱分类器，仅仅比随机猜的要好一些，它的精度靠的是多个弱分类器来实行一票否决式推举

2015-08-24 14:42:42 524

转载 Ubuntu下安装搜狗输入法

先添加以下源sudo add-apt-repository ppa:fcitx-team/nightly添加源之后需要更新一下系统然后就可以开始安装fcitx了接着安装fcitx的配置工具然后安装fcitx的table-all软件包最后安装im-switc

2015-08-22 21:39:45 400

转载 ubuntu14.04LTS更新源

这两天一直在使用Linux系统做一些事情，但是又会有特别多的报错，其中有一个问题就是源的问题，我知道有太多太多的人写这个源更新的帖子，我现在也写一篇关于源更新的帖子，只是针对ubuntu14.04LTS的这个版本一些我正在使用的可用的源。第一步：备份源列表sudo cp /etc/apt/sources.list /etc/apt/sources.list_backup第二步：打开

2015-08-21 23:45:39 305

转载 CNN提速23.5倍！Facebook开源DL模块带给我们什么？

摘要：日前，Facebook人工智能研究院（FAIR）宣布开源了一组深度学习软件库，是针对Torch机器学习框架的插件，基于NVIDIA的GPU，大大提升了神经网络的性能，可以用于计算机视觉和自然语言处理（NLP）等场景。Geoffrey Hinton的努力，使得深度学习（Deep Learning，DL）成为实现机器智能的核心技术。然而，深度学习的一些坑，如大型神经网络的

2015-08-21 14:34:33 1025

转载 opencv 学习笔记-入门（21）之三线性插值-hog(二)

c 图 1. 所谓的三线性插值指的是在(x,y,theta)这三个参数空间中进行插值，即x方向、y方向和梯度的角度空间，如图1所示，图中的象素点(x,y)在利用梯度幅值作为权重进行投票时，要根据该象素点距离其他格子中心的距离进行加权，同时该象素点的梯度方

2015-08-20 17:15:10 2242

转载聚焦GPUBoost 揭密GTX680最革命性变化

2012年3月23日，这是一个不平凡的日子。因为这一天，NVIDIA发布了有史以来最具性能/功耗比的CPU——GeForce GTX 680。或许许多人并不以为然，但GeForce GTX 680为代表的新一代NVIDIA显示芯片即将开创新一代的显卡选购标准。GeForce GTX 680建立起新一代显卡选购标准相信不少关注的玩家已经从网上大量的评测文章，对GTX 680强悍的

2015-08-17 17:56:54 733

转载 Maxwell终极释放单芯王者Titan X首测

北京时间2015年3月18日凌晨4时，NVIDIA全球同步发布了一款最新桌面级产品——GeForce GTX TITAN X，这款显卡基于Maxwell架构的GM200图形核心制造，展现了Maxwell架构所有特性的同时，彻底的将单芯显卡在性能方面的表现推向了新的高度。伟大神邸TITAN的名字出现在显卡中可能不那么的合适，但不得不承认每一次TITAN的降临都颠覆了当时的显卡

2015-08-14 14:18:41 1666

转载完整 MAXWELL 核心登場，NVIDIA GEFORCE GTX TITAN X 顯示卡實測

在 Maxwell 推出數月後，NVIDIA 終於將完整版核心公諸於世，就讓我們來看看，是否能打破 4K 單卡瓶頸。Maxwell 架構主要是針對前代 Kepler 架構的不足處進行改良，同時也針對目前記憶體頻寬不足的部份進行最佳化，提供更優異的記憶體管理。GM200 主要增強的部份有三，其一為 CUDA Cores 將會從原先的 GM204 中的 16 組共 20

2015-08-14 14:14:37 646

转载配置自己的OpenGL库，glew、freeglut库编译，库冲突解决（附OpenGL Demo程序）

1. 引言实验室的一个项目，用到OpenGL进行实时绘制，还用到一些其他的库，一个困扰我很久的问题就是编译时遇到的各种符号未定义，符号重定义之类的链接错误，其一般形式如下：xxx.obj : error LNK2019: 无法解析的外部符号__xx_xxx@xx，该符号在函数 _xxx 中被引用MSVCRTD.lib(ti_inst.obj) : error L

2015-08-13 19:26:02 3271

转载配置freeglut和glew

一配置freeglutGLUT 代表OpenGL Utility Tookit。Mark J.Kilgard 为了使OpenGL应用程序结构能够真正独立于窗口系统构思了GLUT库。Freeglut是一个GLUT的开源实现。具体配置步骤如下：下载freegluthttp://nchc.dl.sourceforge.net/project/freeglut/fr

2015-08-13 16:49:04 453

转载事实证明显存容量它就是个没什么用的属性

当然了，我事先声明一下。这个帖子素材是转自游民星空的。同时这个测评是单卡的。注意：虽然标题本人没有注明是单卡。但标题字数限制。请各位理解所以本帖子要论证的问题不是“显存容量它就是个没什么用的属性” 而是“显存容量在单卡情况下它就是个没什么用的属性”----------------------------------------------------------

2015-08-13 16:01:58 1439

转载批处理文件

基础部分:======================================================================一、基础语法：1.批处理文件是一个“.bat”结尾的文本文件，这个文件的每一行都是一条DOS命令。可以使用任何文本文件编辑工具创建和修改。2.批处理是一种简单的程序，可以用 if 和 goto 来控制流程，也可以使用 for 循环

2015-08-10 10:41:32 702

转载 assert()函数用法总结

assert宏的原型定义在中，其作用是如果它的条件返回错误，则终止程序执行，原型定义：#include assert.h>void assert( int expression );　　assert的作用是现计算表达式 expression ，如果其值为假（即为0），那么它先向stderr打印一条出错信息，然后通过调用 abort 来终止程序运行。请看下面的程序清单badpt

2015-08-05 10:44:42 397

转载什么是显存带宽

在每一个子系统中,除了子系统与处理器之间的速度交换外,子系统内部也有不同的数据交换, 对于图形子系统而言, 除了显示芯片与核处理器之间的数据交换外, 还有显示芯片与显存之间的数据交换.图型处理芯片与显存之间的数据交换速度就是显存的带宽了,这个速度越高, 也就说明交换速度越快. 如果一块图形芯片有强大的处理能力, 但显存带宽不高的话, 将极大的影响其性能, 或者说, 显存将限制着这块芯片无法

2015-07-29 22:02:27 2102

转载吊打A8X 英伟达Tegra X1性能测试出炉

CES 2015还没正式开幕，但英伟达已经发布新一代移动处理器Tegra X1，采用四颗Cortex-A57和四颗Cortex-A53的双架构八核心，和骁龙810以及三星Exynos 7系列相似，流处理器数高达256个，从参数上看，堪比入门级桌面独立显卡。而现在Tegra X1 GPU性能测试初步结果也在网上曝光了，与前一代的Tegra K1、苹果如今的A8X相比，Tegra X1都是各方面碾压前

2015-07-29 21:01:34 2967

转载补齐产品线 NVIDIA发布全新Quadro系列

随着AMD最近刚刚发布了全新系列的FirePro新旧混合阵容专业卡，NVIDIA也随着发布了他们全新的Quadro系列专业卡。NVIDIA预计将会在9月发布他们更多系列。除了NVIDIA最强规格的K6000外——其他系列的Quadro产品将在近期内完全完成产品线铺设,其中包括K5000以及K40000系列,而原本很多费米架构的老产品也被替换掉了，目前NVIDIA的新专业卡都是麦克斯

2015-07-29 19:30:06 751

转载 NVIDIA神卡改个名 1000美刀变5000

GeForce GTX Titan X发布之后仅仅两天，NVIDIA就推出了它的专业版兄弟“Quadro M6000”，面向图形工作站市场，将取代开普勒家族的Quadro K6000，成为新的旗舰卡。历史上，GeForce、Quadro还从来没有如此贴近地发布两款同样核心、几乎同样规格的产品，以往可都是间隔至少几个月的。Quadro M6000还是基于完整的GM200核

2015-07-29 19:07:59 613

转载 NVIDIA Quadro M6000上市比四块GTX Titan X还贵！

NVIDIA的GM200核心首发于消费级的GTX Titan X显卡上，3月中旬的GTC大会上，NVIDIA也随即发布了基于GM200核心的Quadro M6000图形站专业卡，它跟GTX Titan X可以说是龙凤胎，除了配色有所改变之外，其他规格基本是一样的，不过Quadro M6000的价格可比GTX Titan X高多了，66万多日元的价格比四块GTX Titan X显卡还要贵得多。

2015-07-29 16:36:51 1587

转载 quadro显卡好在哪

其实Quadro和Geforce的核芯架构是完全一样的。NVIDIA在芯片的封装基片的内部，对二者作了区分。当显卡驱动检测出显卡是Quadro卡时，会开启显卡的OpenGL ICD API的支持（专业绘图时使用的完整版的API）、线框抗锯齿、对图形的剖切提供硬件加速功能、双面光源处理、硬件帧缓存、更完善的光线追踪加速等等功能，同时驱动加载为专业绘图程序优化的驱动文件。并且能够安装像MAXt

2015-07-29 15:55:19 2185

转载重新定义超频解读NVIDIA的Shader频率

和CPU一样，显卡也可以进行超频，但真正进行显卡超频的人并没有像对CPU超频的那样多。实际上，显卡的超频一直只局限于核心和显存频率，并不像CPU超频那样有趣。不过进入DirectX 10时代后，伴随着NVIDIA统一架构设计的G8X系列显卡的诞生，一种全新的超频方式被提上日程：Shader频率。本文的主角：Shader频率。　　众所周知

2015-07-29 14:52:49 4764

转载 Shader频率or主频? 谁是未来显卡生命线

什么是流处理器？ NVIDIA从G80开始带入了统一着色器架构（Unified Pipeline and Shader Design），也就是说Shader处理单元不会再和从前那样分开Pixel Shader、Vertex Shader等等不同类型的Shader单元，而是以GigaThread线程处理器根据工作负荷分配流处理器完成各种指令，配合标量

2015-07-29 14:21:40 1408

转载最后的疯狂？GTX560Ti 448SP对比评测

【PConline 评测】AMD的28纳米GCN架构显卡无论主流、高端和旗舰产品都面世已经很长一段时间了，NV粉可谓千呼万唤，但对应的开普勒架构产品依然不全，仅有旗舰产品和不显眼的低端GT640，高端产品依然让人着急，依靠GTX560Ti却难以力挽狂澜。开普勒660系列发布在即，原本只有国外销售的GTX560Ti 448SP版逐渐在国内发售，下面我们一起来看看这样的产品能有怎样的表现。

2015-07-29 09:14:49 2084

转载 NV终于出必杀!怪兽显卡GTX TITAN首测

【PConline 评测】就在NVIDIA公司成立20周年之际，NVIDIA发布了全新的旗舰显卡GTX TITAN。惊人的规格，全新的命名方式（TITAN，中文翻译泰坦），到底这款怪兽级产品，会有怎样的性能表现？下面我们为大家送上GTX TITAN首发评测。　　GTX TITAN里面的DNA源于世界最快的超级计算机，显卡使用了超级计算机的GPU设计。在桌面PC上体验超级计算机的快感

2015-07-28 23:30:23 960

转载 Geforce显卡的级别

“Geforce 9800 GTX+ 搭载G92型芯片，是 8800GTX 显卡的G80型架构改进升级版，G92采用的是第二代统一图形处理\并行计算架构，游戏性能方面比 PS3 搭载的移动版 7800M GS 显卡强4倍（GS 意为 Graphics Processor Simplify，图形处理器简化版）。” Geforce 显卡的 GT 型号，代表“次高端”产品，意为 G

2015-07-28 16:07:02 870

转载 GK110强势到来！Tesla K20X/K20正式发布

新一届超级计算大会SC12今天开幕了，除了公布新的TOP500超算榜单，各大相关厂商也是一股脑地发布或者宣布了多款高性能计算产品。先来看NVIDIA这边，基于开普勒大核心GK110、拥有71亿个晶体管的Tesla K20终于正式发布了，而且还有更高端的Tesla K20X。Tesla K20X拥有十四组SMX、2688个流处理器，屏蔽了一组192个，但同时启用完整的384-bit显存位宽和

2015-07-28 15:34:33 911

转载 GK110 Tesla K20最终规格：阉掉384个流处理器

今年五月份，NVIDIA宣布了基于GK110大核心的高性能计算卡Tesla K20，但只介绍了几种新技术，对确切规格却语焉不详。今天，德国同行Heise.de终于揭开了最后的谜底。GK110核心采用台积电28nm工艺制造，集成晶体管数量多达恐怖的71亿个，内部安排了15组SMX阵列，每组192个流处理器，总计拥有2880个，但为了提高良品率，NVIDIA最终只开启了其中的13组，也就是24

2015-07-28 15:24:49 1096

转载 NVIDIA Tesla K80：怪物般的双芯计算卡

新一届高性能计算大会召开，中国的“天河二号”勇夺全球超级计算机性能四连冠，各大厂商也都趁机纷纷推出了各自的重磅新品。先来看NVIDIA的怪物级计算卡：Tesla K80。Tesla K系列都是基于“开普勒”(Kepler)架构的高性能计算产品，其中采用GK110大核心的已有三款，而今天这款Tesla K80，从各个方面都进行了前所未有的增强。首先，她的核心是新的GK

2015-07-28 15:19:49 2089

转载 CUDA nvcc编译步骤简单讲解

如果你想了解 Nvcc 到底搞了什么鬼，究竟 compute_xy sm_xy 区别在哪里， ptx,cudabin 又是怎么嵌套到 exe 里面最终被驱动执行的，这一节正是你想要的知识。他将讲解每一个编译的具体步骤，而且不光是知识，读者可以自己动手操作来体验这一个过程。他的用处不仅在能够对 CUDA 的编译以及工作机制有更深的认识，而且可以进行高级 debug ，比如可以自己手动进行 ptx->

2015-07-27 15:47:23 1257

转载 “无法找到“xxx.exe”的调试信息，或者调试信息不匹配。未使用调试信息生成二进制文件。”

现象：在vs2008中，建立一个空项目，添加一个c++文件main.cpp#includeusing namespace std;int main(){ cout return 0;}该程序能够编译得过，但是执行，无论是debug还是release,都很出现“无法找到“xxx.exe”的调试信息，或者调试信息不匹配。未使

2015-07-24 13:49:27 8562 1

转载 CUDA快速傅里叶变换（cuFFT）阅读笔记（一）

CUDA为开发人员提供了多种库，每一类库针对某一特定领域的应用，CUFFT库则是CUDA中专门用于进行傅里叶变换的函数库，这一系列的文章是博主近一段时间对cuFFT库的学习总结，主要内容是文档的译文，其间夹杂一些博主自己的理解。初学CUDA，理解有误之处在所难免，阅读本篇文章的读者如若发现请不吝指正。1. 简介 cuFFT是的全称是CUDA Fast Fourier T

2015-07-23 21:11:28 4398

转载 CUFFT中FFT点数对FFT性能的影响测试

基2FFT比非基2FFT的运行速度要快，在NVIDIA GPU设备上使用FFT的时候也是尽量使用基2FFT，因为本身使用GPU就是为了追求快速计算。测试了下一个二维复数矩阵在基2FFT和非基2FFT的性能差别（二维矩阵中的一个维度进行FFT，用到了batch）。从我测试的结果来看，基2FFT比非基2FFT快5倍。测试的数据尺寸：基2FFT：512×16384，非基2FFT：428×16384，测试

2015-07-23 20:54:59 3496

TK1 Manual

中值滤波和sobel

空空如也