一文搞懂GPU概念、品牌、架构

本文详细介绍了CPU、GPU、NPU、ASIC和FPGA等芯片的概念、区别、应用场景,以及GPU厂商如NVIDIA、AMD等的发展和市场地位,强调了在人工智能领域特别是深度学习中GPU的重要性。
摘要由CSDN通过智能技术生成

一、芯片概念

算力、芯片、GPU、NPU … 如果你今年在关注人工智能相关的消息,是否已经被这些芯片概念弄得晕头转向?到底在人工智能领域用的是什么芯片?这PU那PU的到底有什么不同?

1.1 CPU

CPU:central process unit,中文名叫中央处理器,它是智能设备的大脑,是发布命令、控制行动的总指挥。CPU遵循的是冯诺伊曼架构,需要存储程序并顺序执行。顺序执行就是做完一件才能去做下一件。如果事情太多,那就等着慢慢排队吧。下图是一张CPU的微架构图,黄色部分是控制单元,绿色部分是计算单元,而橙色部分是存储单元。
在这里插入图片描述
我们可以清晰的发现,负责计算的绿色部分占比很小,占比最多的是橙色的存储单元和黄色的控制单元,因此CPU虽然可以应对各种计算,但其最擅长的并不是计算,而是控制和管理。就好比一个大公司的领导,基层业务也是熟悉的,但是做统筹管理才更能发挥其价值。CPU的代表厂商就是在电脑领域制霸多年的Intel奔腾和酷睿系列,想必有电脑的人都接触过。在手机通信领域则是高通公司,我们熟知的芯片如高通骁龙系列的处理器。

1.2 GPU

CPU的弊端
有了电脑手机了,就想着玩游戏、看视频,对画质的要求越来越高,这就带来了一个问题:巨大的计算量。我们所看见的每一帧图像、每一个像素点都要经过计算,这时候CPU就有些应接不暇了,也没空去处理其他的任务,手机、电脑就变得卡顿起来。

GPU的优势
图形计算有个特点,那就是每个像素点处理的过程和方式都十分相似,因此GPU就应运而生了。
GPU全称为graphics processing unit,中文名图形处理器,俗称显卡。GPU采用数量众多的计算单元和超长的流水线,特别擅长于处理大量类型统一的数据。这张图就是GPU的微架构图。
在这里插入图片描述
我们发现,黄色的控制单元和橙色的存储单元占比很少,绿色的计算单元占据了绝大部分面积,而且是多条流水线一样的计算单元并行排列。图形计算是要处理每一个像素点,把一张图片不同的像素点分配到GPU不同的流水线同时计算,效率瞬间大幅提升,画面也就流畅了,手机也不卡了。
这就好比原来公司缺人,经理亲自跑去搬砖,结果整个公司的运作一团乱麻。现在招了几个身强体壮的GPU专门搬砖经理回到了管理岗位上,公司的运作又正常了起来。

GPU与AI
在人工智能领域,经常听到GPU的名字,这里首先明确,虽然图形计算催生了GPU的诞生,但是GPU并非只为图形计算而设计,它在结构上并没有专门的图形部件,只是对CPU的结构进行了优化调整,所以GPU仍然是一种通用的芯片,它可以应用于图像处理,也可以用于科学计算。

  • 密码破解等需要大量并行计算的场景。
  • 人工智能领域,需要海量的数据对大模型进行训练。

而这些数据就满足类型统一、数量巨大的特点。因此近些年GPU在大模型的训练阶段大放异彩。不过GPU不能单独工作,还是需要和CPU进行配合,CPU擅长管理,GPU擅长运算。

1.3 ASIC

ASIC:Application Specific Integrated Circuit 特定应用集成电路
CPU和GPU都是可以适应多种场景的通用芯片,如果一块芯片从诞生到退役都只用来做固定的事情,比如家用路由器里的WiFi芯片,是否可以牺牲通用性来提高其他方面的表现呢?答案是可以的。
asic芯片就是由此而来,是为实现特定要求而定制的芯片,它在硬件层面实现对特定算法的支持,指令及简单甚至完全固化支持的功能无法再做任何更改。ASIC虽然不具备通用性,但在功耗、体积、可靠性方面有明显优势。不过它有一个最大的问题就是一旦设计有缺陷,可能所有已经生产的产品都将面临报废。因此,为了确保万无一失,其开发周期也非常的长

1.4 FPGA

FPGA:Field Programmable Gate Array 现场可编程逻辑阵列

ASIC开发周期长,有没有灵活一点的定制化芯片呢?FPGA可以通过写入配置文件来定义其内部结构,使FPGA芯片可以实现不同的硬件设计和功能,因此FPGA的全称是现场可编程逻辑阵列,这么灵活的东西对开发者的要求自然也很高。FPGA就像是乐高玩具,使用不同的碎片拼接而成,而ASIC则是定制手办出厂就是一体化的成品。
在这里插入图片描述
从成本上来比较,ASIC由于需要更多的开发人员和更长的开发周期,因此在小批量生产时,ASIC芯片的成本比FPGA更高,而当大规模应用上量之后,ASIC芯片的平均成本较FPGA则不断降低,因此在项目初期适合采用FPGA方案进行尝试,而在场景明确、需求明确的量产阶段,采用asic方案则是更优解

对于不缺人才也不差钱的大厂来说,大多会采用ASIC方案来量产定制化芯片,像大名鼎鼎的谷歌TPU Tensor Processing Unit,中文名张量处理单元,以及国内自主研发的华为升腾910AI处理器,本质上都是ASIC芯片。

1.4 NPU

NPU: Neural Network Processing Unit,中文名神经网络处理器。
人工智能时代有没有诞生新的事物呢?NPU就是伴随人工智能最新的成果。顾名思义,NPU是要用集成电路来模拟人脑的神经元和突触结构,把每个神经元抽象为一个激励函数,通过深度学习来不断调整优化参数和神经网络的拓扑结构,并且它突破了传统芯片的冯诺伊曼架构,模拟人脑神经元的存储运算一体化方式,不再将存储和运算分离设计,从而大大提升了效率。

NPU的典型代表由我们中国的寒武纪和IBM的True North。
华为从MATE10开始就在麒麟970芯片中集成了5G的NPU单元,用于优化拍照和图片处理等功能。如今很多手机中都包含了NPU。你也许遇见过某一天你的手机按照某个人物或者景点为你整理了一个相片合集,甚至还做成了带配乐的短视频。你的手机怎么会变得如此聪明呢?都能认识哪些是你女朋友的照片了?这就是NPU的功劳。

1.5 SOC

SOC: System On a Chip 片上系统
除了CPU、GPU、NPU,我们还听说过大脑处理器BPU、智能处理器IPU、知识处理器KPU等等,其实26个字母可能早就被用完了,除了我们刚才重点介绍的几种类型的芯片,其他的大多是个概念而已,像大脑处理器BPU就是地平线机器人公司用来命名自家芯片的一个注册商标。

这么多类型的芯片,各有各的优势,也各有各的不足,协同工作才能发挥最大的效率。因此把它们集成到一块就有了SOC,SOC就像一个公司把CPU、GPU、NPU、5G等模块都集成在一个芯片组中,总经理是CPU, GPU、NPU等分别是不同的部门经理,听从CPU调度。高通骁龙和华为海思这些年发布的手机芯片都是集成了多种单元的SOC芯片。

二、GPU厂商

2.1 知名厂商

1、NVIDIA(英伟达)
NVIDIA是全球领先的图形处理器(GPU)制造商,其显卡产品在市场上占有很高的份额。NVIDIA的显卡以性能强劲、技术领先而著称,尤其在游戏领域,其显卡的图形处理能力得到了广大游戏玩家的认可。此外,NVIDIA还推出了多款针对专业图形处理、深度学习等领域的显卡,满足了不同用户的需求。

战略合作伙伴:
一线:华硕、技嘉、微星
二线:七彩虹、影驰、索泰、映众
三线:耕升、铭瑄、万丽

2、AMD(超威半导体)
AMD是另一家重要的显卡制造商,其产品线涵盖了从入门级到高端的各个层面。AMD的显卡在性价比方面表现突出,尤其在多屏输出和高清视频处理方面有着出色的表现。近年来,AMD在显卡技术上的创新也不断加速,为用户带来了更多选择。

PS: 图形处理器(GPU)市场上两大巨头,AMD(A卡)和NVIDIA(N卡)

3、MSI(微星)
MSI是一家知名的电脑硬件制造商,其显卡产品也备受消费者青睐。MSI的显卡以品质稳定、散热性能良好而著称,同时在外观设计上也颇具特色。此外,MSI还提供了丰富的显卡附件和增值服务,为用户提供了更加完善的购物体验。

4、Gigabyte(技嘉)
技嘉是一家在主板和显卡领域有着深厚底蕴的品牌。其显卡产品以高性能、高稳定性和良好的散热性能为特点,受到了众多用户的喜爱。技嘉还不断推出创新的产品和技术,以满足市场的不断变化和用户的需求。

5、ZOTAC(索泰)
索泰是一家专注于显卡制造的品牌,其产品以高性能和合理的价格赢得了消费者的青睐。索泰显卡在设计上注重散热性能和稳定性,同时在超频方面也具有一定的潜力,为追求性能的用户提供了更多可能性。

6、ASUS(华硕)
华硕作为一家全球知名的电脑硬件制造商,其显卡产品同样备受关注。华硕的显卡以品质可靠、技术领先而著称,同时其独特的散热设计和优秀的超频性能也赢得了用户的赞誉。此外,华硕还提供了丰富的显卡附件和完善的售后服务,为用户提供了更好的使用体验。

2.2 国内厂商

1、寒武纪
寒武纪自 2016 年成立以来一直专注于人工智能芯片产品研发与技术创新,致力于打造人工智能领域的核心处理器芯片。公司主要提供云端智能芯片及加速卡、训练整机、边缘智能芯片及加速卡、终端智能处理器 IP 及配套基础软件开发平台,产品广泛应用于消费电子、数据中心、云计算等诸多场景。

2、海光信息
海光信息主要从事高端处理器、加速器等计算芯片产品和系统的研发、设计和销售。公司的产品包括海光通用处理器(CPU)和海光协处理器(DCU),具有成熟而丰富的应用生态环境,内置专用安全硬件,可满足互联网、金融、能源等行业的广泛应用需求。

3、景嘉微
景嘉微致力于信息探测、处理与传递领域的技术和综合应用。公司产品涵盖集成电路设计、小型雷达系统、无线通信系统、电磁频谱应用系统等方向,广泛应用于有高可靠性要求的航空、航天、航海、车载等专业领域。

4、芯原股份
芯原依托自主半导体 IP,为客户提供平台化、全方位、一站式芯片定制服务和半导体 IP 授权服务,拥有独特的“芯片设计平台即服务”经营模式。公司可提供高清视频、物联网连接、数据中心等多种一站式芯片定制解决方案,拥有自主可控的图形处理器 IP、神经网络处理器 IP 等五类处理器 IP 及 1400 多个数模混合 IP 和射频 IP,可快速打造出从定义到测试封装完成的半导体产品,业务范围覆盖消费电子、汽车电子、物联网等多种应用领域。据 IPnest 在 2021 年的统计,芯原的半导体 IP 销售收入排中国大陆第二,全球第七,其中公司的图形处理器 IP 排名全球前三。

5、壁仞科技
壁仞科技创立于 2019 年,在 GPU、DSA(专用加速器)和计算机体系结构等领域具有深厚的技术积累。公司致力于开发原创性的通用计算体系,建立高效的软硬件平台,同时在智能计算领域提供一体化的解决方案。

6、摩尔线程
摩尔线程专注于设计高性能通用 GPU 芯片,提供图形计算和 AI 计算的元计算平台的集成电路高科技公司。公司高管团队来自英伟达、AMD、ARM 等知名芯片公司,拥有丰富的 GPU 研究经验,致力于创新面向元计算应用的新一代GPU,构建融合视觉计算、3D 图形计算、科学计算及人工智能计算的综合计算平台,建立基于云原生 GPU 计算的生态系统。

7、芯动科技
芯动科技是国内一站式 IP 和芯片定制及 GPU 领军企业,聚焦计算、存储、连接等三大赛道,提供从 55 纳米到 5 纳米全套高速 IP 核以及高性能定制芯片解决方案。公司拥有经验丰富的技术团队,成立 16 年来已赋能全球数百家知名客户,授权逾 80 亿颗高端 SoC 芯片进入规模量产,拥有过十亿颗 FinFET 定制芯片成功量产经验。

8、兆芯
兆芯成立于 2013 年,提供高效、兼容、安全的自主通用处理器和芯片组等产品,公司掌握自主通用处理器及其系统平台芯片研发设计的核心技术,全面覆盖其微架构与实现技术等关键领域,拥有较为完整的知识产权体系,截至目前已获权约 1300 件专利。

9、天数智芯
天数智芯致力于开发自主可控、国际领先的高性能通用 GPU 产品并提供解决方案,是国内头部通用 GPU 高端芯片及超级算力系统提供商。公司以“成为智能社会的赋能者”为使命,立足客户、市场的需求,加速 AI 计算与图形渲染融合,探索通用 GPU 赶超发展道路,产品广泛应用于智算重心、智慧医疗、互联网、智能制造等领域。

10、沐曦
沐曦于 2020 年 9 月成立于上海,致力于为异构计算提供全栈 GPU 芯片及解决方案,可广泛应用于人工智能、智慧城市、自动驾驶、数字孪生、元宇宙等前沿领域。公司拥有技术完备、设计和产业化经验丰富的团队,核心成员平均拥有近20 年高性能 GPU 产品端到端研发经验。

三、GPU架构

  • Volta 架构:Volta 架构是 NVIDIA GPU 的第六代架构,发布于 2017 年。Volta 架构专注于深度学习和人工智能应用,并引入了 Tensor Core。代表产品:V100、TiTan。
  • Turing 架构:Turing 架构是 NVIDIA GPU 的第七代架构,发布于 2018 年。Turing 架构引入了实时光线追踪(RTX)和深度学习超采样(DLSS)等重要功能。代表产品是T4、2080TI、RTX5000。
  • Ampere 架构:Ampere 架构是 NVIDIA GPU 的第八代架构,2020 年发布。Ampere 架构在计算能力、能效和深度学习性能方面都有重大提升。Ampere 架构的 GPU 采用了多个流多处理器(SM)和更大的总线宽度,提供了更多的 CUDA Core 和更高的频率。它还引入了第三代Tensor Core,提供更强大的深度学习计算性能。Ampere 架构的 GPU 还具有更高的内存容量和带宽,适用于大规模的数据处理和机器学习任务。代表产品是A100、A800、A30系列。
  • Hopper 架构:Hopper 架构是 NVIDIA GPU 的第九代架构,2022 年发布。相较于Ampere,Hopper 架构支持第四代Tensor Core,且采用新型流式处理器,每个 SM 能力更强。Hopper 架构在计算能力、深度学习加速和图形功能方面带来新的创新和改进。代表产品是H100、H800。

四、用途分类

以英伟达为例分为如下三类:
在这里插入图片描述

  • geforce:打游戏的卡,带有风扇和涡轮,可以装在PC里。我们常说的RTX4090(2022.10)、Titan X(2012年底发布)指的就是这个系列的产品。
    在这里插入图片描述

  • Quadro:又称专业卡,用来视觉计算的卡,供制作游戏、动漫、高品质制图工作者使用。非专业用户一般用不到。如RTX A6000

  • Tesla:通用计算,不带风扇,一般是装在服务器上,统一散热。人工智能领域经常提到的卡,用来深度学习模型训练。如V100、A100、A800、H100、H800。
    在这里插入图片描述
    PS:截图来自nvidia官网

五、名字解析

在这里插入图片描述

  • 凡是RTX开头的,如RTX4060 4060TI 4070 4070TI 4080 4090等,都是采用英伟达的芯片加上主板和散热器尽心封装的;
  • 凡是RX开头的7600、7700、7800、7900都是采用AMD的芯片。

因为都是英伟达或AMD的芯片和驱动,同芯片等级的所有品牌型号性能差距不到3%;

六、查看GPU信息

linux系统上查看GPU信息的命令:nvidia-smi
结果截图如下
在这里插入图片描述
这是服务器上RTX3090的信息。
上面的表格中:

  • 第一栏的Fan:N/A是风扇转速,从0到100%之间变动,这个速度是计算机期望的风扇转速,实际情况下如果风扇堵转,可能打不到显示的转速。有的设备不会返回转速,因为它不依赖风扇冷却而是通过其他外设保持低温(比如我们实验室的服务器是常年放在空调房间里的)。
  • 第二栏的Temp:是温度,单位摄氏度。
  • 第三栏的Perf:是性能状态,从P0到P12,P0表示最大性能,P12表示状态最小性能。
  • 第四栏下方的Pwr:是能耗,上方的Persistence-M:是持续模式的状态,持续模式虽然耗能大,但是在新的GPU应用启动时,花费的时间更少,这里显示的是off的状态。
  • 第五栏的Bus-Id是涉及GPU总线的东西,domain🚌device.function
  • 第六栏的Disp.A是Display Active,表示GPU的显示是否初始化。
  • 第五第六栏下方的Memory Usage是显存使用率。
  • 第七栏是浮动的GPU利用率。
  • 第八栏上方是关于ECC的东西。
  • 第八栏下方Compute M是计算模式。
    下面一张表示每个进程占用的显存使用率。

PS:显存占用和GPU占用是两个不一样的东西,显卡是由GPU和显存等组成的,显存和GPU的关系有点类似于内存和CPU的关系。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

pit_man

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值