大模型 | 一文让你彻底了解算力到底是如何计算出来的-算力的计算方法(CPU和GPU)

很多人看到GPU参数表的时候,一直不明白表上的GPU算力数据大小到底是如何计算出来的?又为什么还有FP64和FP32不一样的表述。以下我们就来看看算力的计算方式,一文读懂算力是如何计算出来的,欢迎点赞和收藏。

一、算力的计算方式-CPU算力

CPU算力计算公式:

Flops=【CPU核数】*【单核主频】*【CPU单个周期浮点计算能力】

FP64双精度: CPU单周期双精度浮点计算能力=2(FMA单元数)*2(M/A同时计算乘法和加法)*512bit(指令长度)/64bit=32

FP32单精度: CPU单周期单精度浮点计算能力=2(FMA单元数)*2(M/A同时计算乘法和加法)*512bit(指令长度)/32bit=64

以英特尔6348 CPU(即:英特尔® 至强® Gold 6348处理器,28c,2.60 GHz)为例,支持AVX512指令集,且FMA系数=2

在这里插入图片描述

所以1颗Intel Xeon Gold 6348的CPU每周期算力值为:

6348双精度算力=28x2.6(109)x(32)/(1012)=2.3TFlops
6348单精度算力=28x2.6(109)x(64)/(1012)=4.6TFlops

二、算力的计算方式-GPU算力

GPU的算力也是用FLOPS(浮点运算每秒)衡量。但是GPU 算力跟计算核心个数、核心频率、核心单时钟周期能力三个因素有关。

计算方式一:峰值计算法

通过GPU 峰值计算能力(峰值算力)计算,计算公式如下:

Fclk 为 GPU 的时钟周期内指令执行数 (单位为 FLOPS/Cycle), Freq 为运行频率 (单位为 GHz), NSM 为 GPU SM 数量 (单位为 Cores)。

以英伟达A100 GPU卡为例

在这里插入图片描述

NVIDIA A100 单精度FP32指令吞吐 64 FLOPS/Cycle ,核心运行频率为 1.41GHz ,SM 数量为108 ,Tensor Core里面的是融合乘加指令,所以一次指令执行会计算2次(一次乘法一次加法),因此会乘以2。

那么根据上面的公式有:

A100的峰值算力**=1.41*109*108*64*2/1012=19.491 TFLOPS**

因此 GPU 的算力峰值是,19.491 TFLOPS,大约为 19.5 TFLOPS

计算方式二:CUDA核心计算法

GPU算力计算公式:

Flops=【CUDA核心数】×【加速频率】×【每核心单个周期浮点计算系数】

A100的核心参数:

1、CUDA核心数:6912个(即108×64)
2、加速频率:1.41 GHz
3、GPU每核心单个周期浮点计算系数是:2

那么A100的标准算力(即FP32单精度)=6****912x1.41x2=19491.84 GFlots=19.5TFlops

FP64的双精度算力=19.5TFlops/2=9.7Tflops


以下就是我们常见的不同类型的GPU卡的具体参数,算力就是通过以上方式计算得出来的:

在这里插入图片描述

更多的GPU卡参数还可查询:https://www.techpowerup.com/gpu-specs

三、如何系统学习掌握AI大模型?

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费

### 模型参数量对需求的影响 在深度学习领域,模型参数量显著影响所需的计算资源。随着模型复杂性表达能的增长,更大的参数量意味着更高的存储需求更复杂的运过程。具体而言: - **内存占用**:较大的模型参数量会直接增加显存或内存的使用率。这是因为每个多出来的权重都需要额外的空间来保存其数值[^1]。 - **计算强度**:更多的参数通常伴随着更多次浮点操作(FLOPs),即每次前向传播反向传播过程中涉及的乘法加法次数增多。这不仅增加了单步训练的时间开销,还可能导致整体收敛时间延长[^2]。 - **批处理尺寸效应**:批量大小决定了每次迭代中使用的样本数;较大批次虽然有助于加速梯度估计平滑损失函数表面,但也相应提高了即时计算负担。因此,在固定硬件条件下,增大模型规模往往需要减小批处理尺寸以适应有限的GPU/CPU资源限制。 为了有效管理这些挑战,实践者需仔细评估任务特性、可用硬件条件以及预约束等因素,并据此调整设计决策——比如采用混合精度训练方法降低功耗而不牺牲太多准确性,或者探索剪枝等压缩技术减少冗余连接从而减轻负载[^3]。 ```python import torch from thop import profile model = ... # 定义神经网络结构 input_tensor = torch.randn(1, 3, 224, 224) macs, params = profile(model, inputs=(input_tensor,)) print(f"FLOPS: {macs}, Parameters count: {params}") ``` 此代码片段展示了如何利用`thop`库统计给定PyTorch模型的FLOPs(floating point operations per second)及参数总量,这对于初步判断模型的计算密集程度非常有用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值