TOPS是Tera Operations Per Second的缩写,1TOPS代表处理器每秒钟可进行一万亿次(10^12)操作。与此对应的还有GOPS(Giga Operations Per Second),MOPS(Million Operation Per Second)算力单位。1GOPS代表处理器每秒钟可进行十亿次(10^9)操作,1MOPS代表处理器每秒钟可进行一百万次(10^6)操作。TOPS同GOPS与MOPS可以换算,都代表每秒钟能处理的次数,单位不同而已。在某些情况下,还使用 TOPS/W 来作为评价处理器运算能力的一个性能指标,TOPS/W 用于度量在1W功耗的情况下,处理器能进行多少万亿次操作。
MIPS(Million Instructions Per Second)是一种衡量计算机处理器性能的指标,表示它在一秒钟内可以执行多少百万条指令。
FLOPS(Floating-point operations per second),即每秒浮点运算次数 [10](亦称每秒峰值速度)。浮点(floating-point)指的是带有小数的数值,浮点运算即是小数的四则运算,常用来测量电脑运算速度或被用来估算电脑性能,尤其是在使用到大量浮点运算的科学计算领域中。
一个MFLOPS(megaFLOPS)等于每秒一百万(=10^6)次的浮点运算,
一个GFLOPS(gigaFLOPS)等于每秒十亿(=10^9)次的浮点运算,
一个TFLOPS(teraFLOPS)等于每秒一万亿(=10^12)次的浮点运算,
一个PFLOPS(petaFLOPS)等于每秒一千万亿(=10^15)次的浮点运算,
一个EFLOPS(exaFLOPS)等于每秒一百亿亿(=10^18)次的浮点运算。
HPCG(High Performance Conjugate Gradient),即高性能共轭梯度基准测试,是超级计算机系统的性能评估指标之一。它是一种用于求解大型稀疏线性方程组的迭代算法。在高性能计算领域,共轭梯度法是一种非常重要的求解器,而 HPCG 则是在这个基础上进行优化,以适应大规模并行计算环境的版本。
CPU即中央处理器(Central Processing Unit)虽然有多核,但一般也就几个,每个核都有足够大的缓存和足够多的数字和逻辑运算单元,需要很强的通用性来处理各种不同的数据类型,同时又要逻辑判断又会引入大量的分支跳转和中断的处理,并辅助有很多加速分支判断甚至更复杂的逻辑判断的硬件。
GPU即图形处理器(Graphics Processing Unit)的核数远超CPU,被称为众核(NVIDIA Fermi有512个核)。每个核拥有的缓存大小相对小,数字逻辑运算单元也少而简单(GPU初始时在浮点计算上一直弱于CPU),面对的则是类型高度统一的、相互无依赖的大规模数据和不需要被打断的纯净的计算环境。
TPU即谷歌的张量处理器(Tensor Processing Unit)是一款为机器学习而定制的芯片,经过了专门深度机器学习方面的训练,它有更高效能(每瓦计算能力)。大致上,相对于现在的处理器有7年的领先优势,宽容度更高,每秒在芯片中可以挤出更多的操作时间,使用更复杂和强大的机器学习模型,将之更快的部署,用户也会更加迅速地获得更智能的结果。
NPU即神经网络处理器(Neural network Processing Unit),用电路模拟人类的神经元和突触结构。
算力指数包括算力规模、算力环境和算力应用三大部分。算力规模重点包括基础算力、智能算力和超算算力,分别提供基础通用计算、人工智能计算和科学工程计算。算力环境主要包括网络环境和算力投入,持续优化的网络环境为算力发展提供坚实支撑,大规模算力投入将会对算力增长产生直接和间接的推动作用。算力应用主要包括消费应用和行业应用,消费和行业应用带来了对算力规模、算力能力等需求的快速提升,算力的进步又反向推动了应用的发展。
HBM为High Bandwidth Memory缩写,意即高带宽内存,是一款新型的CPU/GPU内存芯片,HBM 成为 AI 服务器搭载标配,满足海量算力需求。HBM是使用新型半导体加工工艺生产的存储芯片,传输速率更快,但制造成本高。采用垂直堆叠半导体工艺生产的的存储芯片,通过被称为“硅透”(TSV)的线相互连接,实现低功耗、超宽带通信通道,相比GDDR5减少了通信成本,单位带宽能耗更低,制作工艺更高,所以极大减少晶元空间。但加工成本更高。
存储器带宽(memory bandwidth),是指单位时间里存储器所存取的信息量,也称为存储器在单位时间内读出/写入的位数或字节数,体现数据传输速率技术指标 (单位:bps, bit per second,位/秒,或Bytes/s,字节/秒)
访存带宽(Memory Bandwidth)是计算机系统中衡量内存子系统性能的关键指标,指单位时间内内存与处理器(或其他设备)之间传输数据的最大速率,通常以 GB/s(吉字节每秒) 为单位。它是影响系统整体性能的重要因素,尤其在数据密集型应用(如科学计算、图形渲染、深度学习)中表现尤为明显。
计算公式
访存带宽取决于以下因素:
带宽=内存频率×数据位宽×通道数×倍增系数(如DDR)
内存频率:如DDR4-3200中的“3200”表示有效频率(MT/s,百万次传输/秒)。
数据位宽:单根内存通常为64位(8字节)。
通道数:如双通道(Dual Channel)可加倍带宽。
倍增系数:DDR(Double Data Rate)技术每个时钟周期传输2次数据。
示例:
DDR4-3200 双通道内存的带宽为:
3200MT/s×8字节/次×2通道=51.2GB/s
实际带宽 vs 理论带宽:理论带宽:由硬件规格计算得出的最大值。实际带宽:受内存控制器效率、缓存命中率、数据访问模式(顺序/随机)等因素影响,通常低于理论值。
工具测试:如 Stream、AIDA64、LMbench 可测量实际带宽。
制程是指计算机芯片的制造工艺,通常以光刻芯片的微米长度来表示。CPU制程,又称半导体工艺,是指半导体制造中将晶圆进行精密刻蚀、掺杂等工艺的过程。芯片制作工艺xxnm指的是沟道宽度。
半导体封装是指将通过测试的晶圆按照产品型号及功能需求加工得到独立芯片的过程。封装过程为:来自晶圆前道工艺的晶圆通过划片工艺后被切割为小的晶片(Die),然后将切割好的晶片用胶水贴装到相应的基板(引线框架)架的小岛上,再利用超细的金属(金锡铜铝)导线或者导电性树脂将晶片的接合焊盘(Bond Pad)连接到基板的相应引脚(Lead),并构成所要求的电路;然后再对独立的晶片用塑料外壳加以封装保护,塑封之后还要进行一系列操作,封装完成后进行成品测试,通常经过入检Incoming、测试Test和包装Packing等工序,最后入库出货。典型的封装工艺流程为:划片 装片 键合 塑封 去飞边 电镀 打印 切筋和成型 外观检查 成品测试 包装出货。现今大多数的高脚数芯片(如图形芯片与芯片组等)皆转而使用BGA(Ball Grid Array Package)封装技术。BGA一出现便成为CPU、主板上南/北桥芯片等高密度、高性能、多引脚封装的最佳选择。BGA封装技术又可详分为五大类:1.PBGA(Plasric BGA)基板:一般为2-4层有机材料构成的多层板。Intel系列CPU中,Pentium II、III、IV处理器均采用这种封装形式。2.CBGA(CeramicBGA)基板:即陶瓷基板,芯片与基板间的电气连接通常采用倒装芯片(FlipChip,简称FC)的安装方式。Intel系列CPU中,Pentium I、II、Pentium Pro处理器均采用过这种封装形式。3.FCBGA(FilpChipBGA)基板:硬质多层基板。4.TBGA(TapeBGA)基板:基板为带状软质的1-2层PCB电路板。5.CDPBGA(Carity Down PBGA)基板:指封装中央有方型低陷的芯片区(又称空腔区)。
2.5D封装以其高带宽、低功耗和高集成度的优势,成为了AI芯片的理想封装方案。在2.5D封装领域,英特尔的EMIB和台积电的CoWoS是两大明星技术。众所周知,台积电的CoWoS产能紧缺严重制约了AI芯片的发展,这正是英特尔EMIB技术可以弥补的地方。2.5D封装是一种通过硅中介层(Silicon Interposer)或嵌入式桥接技术(如英特尔的EMIB)将多个芯片水平连接起来的技术。与传统的2D封装相比,它允许在单一封装内集成更多功能单元,比如CPU、GPU、内存(HBM)和I/O模块;而与复杂的3D堆叠相比,它又避免了过高的制造难度和热管理挑战。这种“不上不下的中间状态”恰恰为AI芯片提供了完美的平衡。
TDP(Thermal Design Power,散热设计功耗)主要是提供给计算机系统厂商,散热片/风扇厂商,以及机箱厂商等等进行系统设计时使用的。散热设计功耗的含义是当芯片达到最大负荷的时候〔单位为瓦(W)〕热量释放的指标,是电脑的冷却系统必须有能力驱散热量的最大限度,但不是芯片释放热量的功率。
PCI-Express(peripheral component interconnect express)是一种高速串行计算机扩展总线标准,它原来的名称为“3GIO”,是由英特尔在2001年提出的,旨在替代旧的PCI,PCI-X和AGP总线标准。PCIe属于高速串行点对点双通道高带宽传输,所连接的设备分配独享通道带宽,不共享总线带宽,主要支持主动电源管理,错误报告,端对端的可靠性传输,热插拔以及服务质量(QOS)等功能。
ECC(Error Checking and Correcting,错误检查和纠正)ECC内存,即应用了能够实现错误检查和纠正技术(ECC)的内存条。一般多应用在服务器及图形工作站上,这将使整个电脑系统在工作时更趋于安全稳定。
SMBus (System Management Bus,系统管理总线) 是1995年由Intel提出的,应用于移动PC和桌面PC系统中的低速率通讯。希望通过一条廉价并且功能强大的总线(由两条线组成),来控制主板上的设备并收集相应的信息。工作时更趋于安全稳定。SMBus 为系统和电源管理这样的任务提供了一条控制总线,使用 SMBus 的系统,设备之间发送和接收消息都是通过 SMBus,而不是使用单独的控制线,这样可以节省设备的管脚数。SMBus器件存在现有7层OSI网络模型中的前3层,即物理层,数据链路层和网络层。
I2C总线是由Philips公司开发的一种简单、双向二线制同步串行总线。它只需要两根线即可在连接于总线上的器件之间传送信息。
SMBus与I2C总线之间在时序特性上存在一些差别。首先,SMBus需要一定数据保持时间,而 I2C总线则是从内部延长数据保持时间。SMBus具有超时功能,因此当SCL太低而超过35 ms时,从器件将复位正在进行的通信。相反,I2C采用硬件复位。SMBus具有一种警报响应地址(ARA),因此当从器件产生一个中断时,它不会马上清除中断,而是一直保持到其收到一个由主器件发送的含有其地址的ARA为止。SMBus只工作在从10kHz到最高100kHz。最低工作频率10kHz是由SMBus超时功能决定的。
Mezz卡(Mezzanine Card)服务器mezz是一种服务器扩展卡的类型,设计用于安装于服务器主板或扩展槽上,用于增强服务器性能或添加特定功能的卡片。Mezz卡通常采用半高半长的尺寸,可以安装在服务器的PCI-Express或PCI-X扩展槽上。Mezz卡可以连接到服务器的系统总线,与主处理器和其他组件进行通信。服务器mezz卡通常用于提供额外的网络连接、存储容量、图形处理能力和其他高性能功能。
UBB主板在AI领域的主要作用是搭载整个GPU平台,在AI服务器中与GPU加速模块(SXM/OAM模块)直接相连,为GPU加速模块提供高效的数据传输与交换通道,同时具备一定的数据管理功能,通常具备高性能、高稳定性和高可拓展型等特点。
基板是制造PCB的基本材料,一般情况下,基板就是覆铜箔层压板,单、双面印制板在制造中是在基板材料-覆铜箔层压板(Copper Clad Laminate,CCL)上,有选择地进行孔加工、化学镀铜、电镀铜、蚀刻等加工,得到所需电路图形。另一类多层印制板的制造,也是以内芯薄型覆铜箔板为底基,将导电图形层与半固化片(Pregpr’eg)交替地经一次性层压黏合在一起,形成3层以上导电图形层间互连。它具有导电、绝缘和支撑三个方面的功能。印制板的性能、质量、制造中的加工性、制造成本、制造水平等,在很大程度上取决于基板材料。
SDK(Software Development Kit,软件开发工具包)一般都是一些软件工程师为特定的软件包、软件框架、硬件平台、操作系统等建立应用软件时的开发工具的集合。
CV(Computer Vision,计算机视觉)库是一组用于处理图像和视频的工具和函数的集合。这些库允许开发者进行图像处理、特征提取、对象检测、图像识别等任务。其中最常用的CV库之一是OpenCV(Open Source Computer Vision Library),它是一个开源的跨平台计算机视觉库,提供了丰富的图像处理和计算机视觉算法,可以在Python、C++、Java等语言中使用。
NN库通常指与神经网络(Neural Networks)相关的软件库,用于实现、训练和部署深度学习模型。这些库提供了高度优化的计算操作(如矩阵乘法、卷积等),并支持自动微分、分布式训练和硬件加速(如GPU/TPU)。
OAM(Open Accelerator Module,OCP 加速器模块)定义了计算加速器模块的夹层外形(mezzanine form factor)和通用规范。是一种开放式的加速器模块标准,主要用于高性能计算(HPC)、人工智能(AI)和机器学习(ML)领域,旨在为加速器硬件(如GPU、AI芯片)提供统一的物理和电气设计规范,促进多厂商兼容性和系统集成。
NIC通信适配器又称网络接口板(network adapter)或网络接口卡NIC(Network Interface Card)但是现在更多的人愿意使用更为简单的名称“网卡”。主要用来连接共享资源,是计算机系统的必备部件。网卡上面装有处理器和存储器(包括RAM和ROM),网卡是工作在数据链路层的网路组件,是局域网中连接计算机和传输介质的接口,不仅能实现与局域网传输介质之间的物理连接和电信号匹配,还涉及帧的发送与接收、帧的封装与拆封、介质访问控制、数据的编码与解码以及数据缓存的功能等。
NCHW/NHWC:通常,深度学习框架如Caffe、NCNN和PyTorch倾向于使用NCHW(批量、通道、高度、宽度)的顺序存储,而Tensorflow和OpenCV则倾向于NHWC(通道、宽度、高度、批量)。改变数据格式通常只需调整相关参数即可。NCHW格式首先读取宽度,接着是高度,然后是通道,最后是批量数据。这导致序列化后的1D数据顺序是不同的。相比之下,NHWC则是先取通道数据,然后宽度,接着高度,最后是批量。尽管数据存储方式不同,但处理后的计算结果保持一致。数据的排列影响处理器的并行计算能力。例如,HWC格式由于减少了数据移动和内存读取,对于多核CPU,尤其是处理小尺寸数据时,能提供更快的运算速度。然而,CHW格式,如GPU所偏爱,利用其大内存带宽和并行计算特性,适合处理大规模数据。
HEVC(高效视频编码),也称为H.265和MPEG-H part 2,是视频压缩标准,是广泛使用的AVC(H.264或MPEG-4第10部分)的几个潜在后继者之一。 与AVC相比,HEVC在相同的视频质量水平下提供大约两倍的数据压缩比,或者以相同的比特率显著提高视频质量。 它支持高达8192×4320的分辨率,包括8K UHD。
resize 是一种常用的图片预处理方法,进行图像大小变换。
crop是一种常用的图片预处理方法,会改变原来的图像,截取主要的信息,忽略其他信息。
ONNX (Open NeuralNetwork Exchange,开放的生态系统)可使模型在不同框架之间进行转移。
RDMA(远程直接内存访问)