- 博客(6)
- 资源 (4)
- 收藏
- 关注
原创 移动GPU通用计算现状与展望
GPU通用计算简介(成文于2014年9月,受情报来源限制,文中处理器型号信息可能与上市时规格不同, 不同平台性能、功耗、带宽测试方法不同,不能简单比较)传统上,GPU的应用被局限于处理图形渲染计算任务。随着GPU可编程性的不断提高,利用GPU完成通用计算渐渐活跃起来。将GPU用于图形渲染以外领域的计算称为GPGPU(General-Purpose computing on Graphics
2015-03-29 21:35:54 3694
原创 Musemage 0.9.0发布- 革命性的图像处理软件
<br />全球首个实现完全采用 GPU 处理流程加速图片软件 Musemage 0.9.0 Beta2 测试版发布<br />Musemage中英文版下载地址:www.musemage.com/download.html<br />需要Nvidia G80以上显卡支持<br /> <br /> <br />Features:<br />--Ultra-fast Image Processing<br />Fully GPU Accelerated filters, Fully real-time in
2010-08-12 11:37:00 1073
原创 OpenCL简测,AMD与NV平台对比
最近一阵进行了一些OpenCL简单测试,得出了一些有趣的结论。由于AMD还没有公布RV870架构的官方文档,因此我们可以从这些结论中反推AMD/ATI显卡的架构,并对OpenCL未来的走向作一个简单的判断。 首先是峰值计算能力方面,我们进行了单精度浮点、双精度浮点和32bit整数计算测试,测试项目包括加法、乘法、乘加,以及浮点的特殊函数和定点的位操作测试。 测试结果表明:GTX
2009-12-20 19:39:00 2896
原创 Tesla架构下的CUDA程序优化
CUDA优化的最终目的是:在最短的时间内,在允许的误差范围内完成给定的计算任务。在这里,“最短的时间”是指整个程序运行的时间,更侧重于计算的吞吐量,而不是单个数据的延迟。在开始考虑使用GPU和CPU协同计算之前,应该先粗略的评估使用CUDA是否能达到预想的效果,包括以下几个方面:精度:目前GPU的单精度性能要远远超过双精度性能,整数乘法、求模、求余等运算的指令吞吐量也较为有限。在科学计算中,由
2009-07-30 22:41:00 5444 2
原创 CUDA纹理存储器的特性及其使用
2.3.5 纹理存储器纹理存储器(texture memory)是一种只读存储器,由GPU用于纹理渲染的的图形专用单元发展而来,因此也提供了一些特殊功能。纹理存储器中的数据位于显存,但可以通过纹理缓存加速读取。在纹理存储器中可以绑定的数据比在常量存储器可以声明的64K大很多,并且支持一维、二维或者三维纹理。在通用计算中,纹理存储器十分适合用于实现图像处理或查找表,并且对数据量较大时的随机数据访
2009-06-24 12:23:00 10467 7
原创 通用计算程序在Tesla架构上的执行
节选自正在写的书稿,还没有配图。这一部分是第三章硬件介绍的一部分,在之前的小节里已经介绍了显卡的组成和一般知识,以及GPU的架构简介。这一节专门介绍CUDA程序如何映射到硬件上,希望对大家有所帮助。 由nvcc生成的通用计算程序分为主机端程序和设备端程序两部分。那么,一个完整的CUDA程序是如何在CPU和GPU上执行的呢?在这一节,我们不仅将介绍CUDA的编程模型如何映射到硬件上,还会介绍
2009-04-25 19:06:00 4620 3
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人