
【NPU 学习专栏】
文章平均质量分 94
NPU 学习专栏
优惠券已抵扣
余额抵扣
还需支付
¥89.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
主公讲 ARM
竹杖芒鞋轻胜马,谁怕?一蓑烟雨任平生
展开
-
【NPU 系列专栏 3.0 -- scale-out 和 scale-in 和 scale-up 和 scale-down
特性Scale-outScale-inScale-upScale-down方向横向扩展横向缩减纵向扩展纵向缩减资源增加更多节点减少节点提升单个设备能力降低单个设备能力应用场景分布式系统资源回收高性能设备升级低功耗或低性能要求在 AI SoC 中,这四种方法通常结合使用。例如:数据中心可能会采用Scale-out的方式增加更多 AI SoC。终端设备(如手机、摄像头)可能更多使用Scale-up和Scale-down方法以适应不同性能和功耗需求。原创 2025-03-21 22:05:39 · 158 阅读 · 0 评论 -
【NPU 系列专栏 2.9 -- 国产GPU公司与创始人介绍】
如有侵权,请联系删除。原创 2024-08-16 14:46:40 · 3224 阅读 · 0 评论 -
【NPU 系列专栏 2.8 -- 特斯拉 FDS NPU 详细介绍 】
特斯拉作为全球领先的电动汽车制造商,一直在不断提升其自动驾驶技术。为了实现智能驾驶,特斯拉在其车辆中使用了多款高性能的车载 NPU(Neural Processing Unit)芯片。以下是对特斯拉车载 NPU 芯片的详细介绍。特斯拉 FSD 芯片是特斯拉自主设计并由三星代工生产的车载 NPU 芯片,专门用于支持其全自动驾驶功能。这款芯片被部署在特斯拉的 Autopilot 计算机中,提供强大的计算能力以支持高级自动驾驶功能。原创 2024-07-28 11:40:00 · 1363 阅读 · 0 评论 -
【NPU 系列专栏 2.7 -- - NVIDIA GPU 架构介绍】
英伟达(NVIDIA)是全球领先的图形处理单元(GPU)制造商,其推出了多种 GPU 架构,每一代架构都在性能和能效方面有显著提升。以下是英伟达主要 GPU 架构的详细介绍。Tesla 架构是英伟达第一代支持通用计算的 GPU 架构,标志着 GPU 从专用的图形处理器向通用计算加速器的转变。Fermi 架构是英伟达第二代支持通用计算的 GPU 架构,针对计算和图形处理进行了大量优化。Kepler 架构是英伟达第三代支持通用计算的 GPU 架构,进一步提升了性能和能效。原创 2024-07-28 11:11:15 · 1109 阅读 · 0 评论 -
【NPU 系列专栏 2.6 -- - NVIDIA Xavier SoC】
英伟达 Xavier SoC 是一款功能强大的系统级芯片,集成了多种处理单元,提供了高效的计算能力和丰富的应用场景。与其他厂商的 NPU 相比,Xavier SoC 具有更高的灵活性和丰富的生态系统支持,适用于多种复杂的 AI 和机器学习任务。通过详细的对比,可以看到 Xavier SoC 在自动驾驶、机器人、物联网和医疗设备等领域的广泛应用。Xavier SoC 集成了多个处理单元,包括 CPU、GPU 和 NPU(Neural Processing Unit),提供了强大的计算能力和高效的能效比。原创 2024-07-28 11:00:20 · 1269 阅读 · 0 评论 -
【NPU 系列专栏 3.2 -- ARM NPU 周易(Zhouyi) 与 周易 X2 详细介绍】
ARM China 的自研产品线包括 “周易”NPU、“星辰”CPU、“山海”SPU、“玲珑”ISP、“玲珑”VPU,160家,累计出货量突破2亿颗。周易 NPU 是 ARM 推出的一款专用神经处理单元(NPU),旨在为嵌入式设备提供高效的人工智能(AI)和机器学习(ML)加速能力。周易 NPU 主要面向中低端市场,适用于智能家居设备、物联网(IoT)设备等。周易 X2 NPU 是周易系列的高端版本,进一步提升了算力和性能,适用于需要更高 AI 处理能力的应用场景,如高端智能手机、平板电脑等。原创 2024-07-27 22:14:27 · 1768 阅读 · 0 评论 -
【NPU 系列专栏 2.5 -- GPU 与 NPU 的区别】
GPU 最初设计用于图形渲染和图像处理。近年来,由于其强大的并行计算能力,GPU 被广泛应用于通用计算领域,特别是深度学习和科学计算。GPU 特点并行计算能力:GPU 具有大量的计算核心,可以同时处理大量数据,特别适合并行计算任务。高吞吐量:GPU 的设计使其能够高效处理大规模数据吞吐,适合需要大量矩阵运算的任务。灵活性:可以通过编程实现各种计算任务,适用于图形渲染、深度学习、科学计算等多个领域。应用场景:图形渲染:游戏、动画、视频处理等。深度学习。原创 2024-07-27 21:49:47 · 663 阅读 · 0 评论 -
【NPU 系列专栏 2.4 -- 高速互连 NVLink 详细介绍】
NVLink 是 NVIDIA 开发的一种高速互连技术,旨在提升 GPU 与 GPU 之间以及 GPU 与 CPU 之间的数据传输速率。相比传统的 PCIe 接口,NVLink 提供了显著更高的带宽和更低的延迟,从而显著提升了多 GPU 系统和 GPU 加速计算系统的整体性能。假设我们有一个包含多个 GPU 的深度学习训练系统,利用 NVLink 提升数据传输带宽和计算效率。环境准备确保安装了 PyTorch 和支持 NVLink 的 NVIDIA GPU。多 GPU 训练代码示例。原创 2024-07-27 17:07:32 · 1184 阅读 · 0 评论 -
【NPU 系列专栏 3.1 -- - ARM NPU 有哪些型号?】
ARM Z 系列 NPU 面向中低端市场,提供高能效比的 AI 加速能力,适用于智能家居设备、物联网设备等。原创 2024-07-27 09:21:39 · 1118 阅读 · 0 评论 -
【NPU 系列专栏 3 -- - ARM NPU 系列介绍】
ARM X 系列 NPU 是高性能的 AI 加速器,设计用于处理复杂的深度学习任务。X 系列 NPU 提供了强大的计算能力和灵活性,适用于高端智能手机、平板电脑和其他需要高效 AI 处理的设备。ARM Z 系列 NPU 是面向中低端市场的 AI 加速器,设计用于能效优化的 AI 处理任务。Z 系列 NPU 提供适中的计算能力和高能效比,适用于智能家居设备、物联网设备等。原创 2024-07-27 09:05:14 · 1191 阅读 · 0 评论 -
【NPU 系列专栏 1.1 -- NPU TOPS 算力的计算方式】
MAC(Multiply-Accumulate)阵列是电子计算领域中的一个基本单元,广泛应用于数字信号处理(DSP)、神经网络加速以及其他需要高效数学计算的领域。MAC 单元能够执行乘积累加运算,即在一个操作周期内同时进行乘法和加法运算。原创 2024-07-25 22:59:31 · 1673 阅读 · 0 评论 -
【NPU 系列专栏 2.3 -- 高带宽内存 HBM3 详细介绍】
高带宽内存(High Bandwidth Memory, HBM) 是一种用于高性能计算(HPC)和图形处理的高带宽、低功耗内存标准。HBM3 是 HBM 系列的最新一代,经过进一步优化,提供更高的性能和更低的功耗,是当前 GPU 和高性能计算系统中的关键技术。HBM3 的主要有以下特点。原创 2024-07-25 21:56:51 · 1770 阅读 · 0 评论 -
【NPU 系列专栏 2.2 -- - NVIDIA 的 Orin 和 Altan 和 Thor 区别】
2020年前后,英伟达分别发布了新一代面向机器人和自动驾驶领域的Orin芯片和计算平台。这全新的SoC采用CPU内核和英伟达下一代GPU架构,Orin SoC包含了高达170亿晶体管,几乎是Xavier SoC的两倍,搭载了12个ARM Hercules内核,并集成了NVIDIA下一代Ampere架构的GPU,提供了惊人的性能,接近Xavier SoC的7倍。Orin SoC采用先进的7nm制程工艺,功耗水平出色,在200TOPS的算力下,TDP仅为50W。原创 2024-07-25 19:41:35 · 1968 阅读 · 0 评论 -
【NPU 系列专栏 2.1 -- NVIDIA 的 H100 和 H200 的算力介绍】
与 H100 相比,H200 的内存更大(141GB),带宽更高(4.8 TB/s),分别约为 H100 的 1.8 倍和 1.4 倍。Llama 测试的基准测试证明了这一优势,即使在与 H100 相同的功率水平 (700W TDP) 下,H200 也能实现高达 28% 的提升。这些比较凸显了 H200 GPU 相对于 H100 所取得的技术进步和性能增强,特别是在通过更大的内存容量、更高的内存带宽和改进的热管理来处理像 Llama 2 70B 这样的生成式 AI 推理工作负载的需求方面。原创 2024-07-25 17:44:00 · 7233 阅读 · 2 评论 -
【NPU 系列专栏 2 -- NVIDIA 的 H100 和 H200 是什么?】
英伟达 H100 是其最新一代数据中心 GPU,是继 A100 之后的下一代产品。它基于英伟达的 Hopper 架构,并针对强大的计算性能、灵活性和效率进行了优化,主要用于人工智能、大数据和高性能计算等领域。英伟达 H200 是 H100 的升级版本,继续基于 Hopper 架构,通过进一步优化和增强来提升性能和效率,适用于更广泛和更苛刻的计算任务。原创 2024-07-25 17:23:43 · 1573 阅读 · 0 评论 -
【NPU 系列专栏 1 -- NPU TOPS 是什么?】
TOPS 是衡量 NPU 性能的一个关键指标,类似于 CPU 的 GHz 或 FLOPS(Floating Point Operations Per Second,浮点运算每秒)。较高的 TOPS 表示处理器能够在更短的时间内处理更多的计算操作,从而提高整个系统的性能和效率。较高的 TOPS 表示处理器能够在更短的时间内处理更多的计算操作,从而提高整个系统的性能和效率。假设某自动驾驶汽车的 NPU 具有 200 TOPS 的性能,这意味它可以每秒执行 200 万亿次操作。原创 2024-07-25 17:08:28 · 1200 阅读 · 0 评论