【走近CUDA】_并行计算与CUDA简介

最新推荐文章于 2024-03-15 10:33:35 发布

jonny_super

最新推荐文章于 2024-03-15 10:33:35 发布

阅读量1.4k

点赞数

分类专栏： CUDA编程文章标签： cuda 并行计算 GPU版本

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jonny_super/article/details/22926537

版权

CUDA编程专栏收录该内容

18 篇文章 4 订阅

订阅专栏

并行计算

随着硬件技术的发展，并行计算已经逐步走进大家的生活。你在用社交软件聊天的同时，可能需要浏览网页，播放音乐。而只能打电话的手机，已经不是大家期待的手机。这些都受益于并行计算的发展。

早期的并行计算主要是在CPU上完成的。提升CPU的性能主要有以下两种方式：

1）提高处理器的时钟频率

2）增加处理器的数量

早期的GPU主要负责对显示器做图形的渲染。而在图形处理上执行通用计算是一个新概念。将GPU用于图形渲染以外领域的计算成为GPGPU(General Popose computing on Graphics Processing Units)。早期这类计算仍然需要伪装为图形渲染问题，通过像素着色器根据像素在屏幕上的位置以及输入颜色、纹理坐标等信息，为屏幕上的每个像素计算出一个颜色值。将这些输入的颜色换为任意数据，对每个像素着色器进行编程从而对输入值执行任意计算，计算结果交回GPU作为像素的最终“颜色”。这些任务类似于标准的渲染任务，但要将GPU用于通用计算，却存在以下几个问题：

1）输入的限制(只能是颜色值)

2）内存的写入限制

3）浮点数据的运算

4）异常处理

此外，用户只能通过图像API(OpenGL或DirectX)与GPU进行交互，比较复杂。

CUDA

CUDA(Compute Unified Device Architecture)则很好的解决了这些问题，使用统一的着色器流水线使得执行通用计算的程序能对芯片上的每个数学逻辑单元进行排列。支持CUDA的GPU的ALU满足IEEE单精度浮点运算的需求，且GPU上的执行单元能任意的读写内存。这都保证了CUDA能高效的执行通用计算。

nVidia采用工业标准的C语言，增加一部分关键字在支持CUDA的特殊功能，还提供专门的硬件驱动程序来发挥其大规模计算功能。用户不再需要了解OpenGL或DirectX就可以直接用CUDA执行通用计算。

2006年的GeForce 8系列开始支持CUDA架构。只有在Geforce 8及其之后的GPU版本才能通过Cuda toolkit中的QueryDevice。

2008年的GeForce 9系列支持CUDA计算能力1.1,GT200支持CUDA计算能力1.3。Tegra系列主打移动处理器市场。

之后还发布了Quadro系列(用于图形工作站)和Tesla系列(用于高性能通用计算的产品线)。

参考资料：

nVidia官网：http://www.nvidia.cn/page/home.html

文档：(需要文档的请留言)

CUDA_C_Best_Practices_Guide 4.0

CUDA_C_Programming_Guide 4.0

【中文版】GPU高性能编程CUDA实战

【英文版】CUDA By Example: An Introduction to General-Purpose GPUProgramming

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

jonny_super CSDN认证博客专家 CSDN认证企业博客

码龄15年

24: 原创

31万+: 周排名

66万+: 总排名

7万+: 访问

: 等级

1018: 积分

30: 粉丝

21: 获赞

37: 评论

56: 收藏

私信

关注

热门文章

分类专栏

最新评论

[菜鸟每天来段CUDA_C]CUDA与OpenGL互操作
包包小神: cutil_inline.h 没有啊
[菜鸟每天来段CUDA_C] 利用页锁定内存提高运算效率
qq_23057049: 么有差距
[菜鸟每天来段CUDA_C]CUDA实现向量的点积运算
专打小匠人: 这个代码应该是按照《GPU高性能编程CUDA实战》来的吧，实际上GPU计算结果貌似跟sum_squares是有区别的。"Does GPU value %.6g equals to %.6g ?\n"看起来他们是一样的，但是由于数值太大（2.57236e13）后面都约掉了......如果用c-2*sum_squares((float)(N-1))结果不是0而是-4194304！为啥会出现这个结果呢？还有如果我用的是全局变量的话最后结果也是不一样的，而且结果会是一直在变动，而用共享变量是不会变动的。
[菜鸟每天来段CUDA_C]GPU上通过常量内存实现光线跟踪
fangtiancheng: 求求源代码，邮箱fangtiancheng@sjtu.edu.cn，感激不尽
MFC应用程序中enable或disable菜单项
keivin2006: 大佬写的太好了！

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。