NVIDIA Jetson AGX Orin比Jetson AGX Xavier到底贵在哪里?

NVIDIA Jetson AGX Orin开发套件的官方价格为1999美金,而三年前发布的Jetson AGX Xavier开发套件的官方价格为899美金(现在已经停产买不到了),很多用户说居然贵了这么多,到底贵在哪里了?

今天Lady在网上发现了一篇评测文章,我就翻译节选了发在这里供大家参考。

文章的原文是——

是由SmartCow公司发布,这是一家人工智能工程公司,专门从事高级视频分析、应用人工智能和电子制造,成立于 2016 年。

该公司表示——

在整篇文章中,我们将与您分享新的 NVIDIA Jetson AGX Orin 模块如何成为边缘设备领域的游戏规则改变者。

规格比较

(点击图片可以放大观看,建议大家把图片保存)

将 Jetson AGX Orin 的规格与 Jetson AGX Xavier 进行比较,我们可以同意 Jetson AGX Orin 非常有前途。它拥有高达 275 TOPS,比 Jetson AGX Xavier 的 64GB/32GB 版本强大 8 倍。此外,它还拥有多达 12 个内核的新 Cortex CPU、LPDDR5 内存、64GB eMMC、2 个下一代 DLA,以及多达 2048 个内核的 NVIDIA Ampere GPU,具有 64 个张量内核。显然,TOPS 多 8 倍并不一定意味着推理时间快 8 倍。

事实上,在这份规格表中,NVIDIA 做了一个推理时间比较。

根据上表并使用当前可用的软件,与 AGX Xavier 相比,我们可以预期可以实现高达 3.3 倍的改进,并且我们可以期待在未来的更新中获得更好的性能。开发套件中包含的 Jetson AGX Orin 模块与生产的 Jetson AGX Orin 64GB 模块的规格相同,只不过内存除外:它具有 12 核 Cortex CPU 和 2048 核 GPU 以及 64 个张量核,但具有 32GB LPDDR5 内存而不是 64GB .

运行 deviceQuery 可以让我们获得GPU 更详细的规格:

作为对照,我们将使用 Jetson AGX Xavier开发套件(配备 512 核 Volta GPU、32GB LPDDR4x 内存、32GB 内部存储、8 核 Carmel CPU 和 2 个 DLA V1 内核,AI 性能测量为 32 TOPS。)

Benchmarking

在本节中,我们将在两个设备上运行相同的脚本。在查看图表和实际指标之前,让我们看一下软件环境。我们的 Jetson AGX Orin 使用 Jetson Linux 34.0、CUDA 11.4 和 TensorRT 8.4.0 Early Access 运行 JetPack 5.0 Early Access。另一方面,Jetson AGX Xavier 使用 Jetpack 4.6 与 Jetson 32.6.1、CUDA 10.2 和 TensorRT 8.0.1 刷新。两者最大的区别在于可能会影响引擎构建过程的 TensorRT 版本。在解释结果时必须牢记这一点。

首先,我们将运行一个具有两个模型的口罩识别管道:一个人脸检测模型和一个分类网络,该网络接受检测到的人脸的输入并确定该人是否戴着口罩。 两种模型都在 fp16 模式下使用 TensorRT 运行。 别担心,int8 量化模型的测试即将推出。

,时长06:31

根据上述视频,我们无法轻易区分任何视觉差异。 然而,从 FPS 计数来看,很明显 AGX Orin 更能够在输入视频上生成推理。

因此,我们可以得出结论,在这种情况下,Jetson AGX Orin 比 Jetson AGX Xavier 快 2.66 倍,但当前为预览版软件,稳定性也稍差一些。

下一个测试是纯基于 TensorRT 的分类模型推理基准。对于那些熟悉边缘分类的人来说,EfficientNet 系列可能会敲响警钟。众所周知,这个著名的分类模型以非常低的延迟提供了令人难以置信的良好准确性。众所周知的事实是,在量化后,vanilla EfficientNet 模型将导致精度损失,因为 Swish 激活函数和 SENet 将您的模型保持在 fp16 直到掌握 QAT。我们将考虑 fp16 和 int8 模型。对于这些测试,我们将使用两个不同的 EfficientNet 系列——从 B0 到 B4 的 vanilla 版本和从 lite0 到 lite4 的 lite 版本。如果您对这些网络的实现感到好奇,我强烈邀请您查看这个 EfficientNet-lite 存储库。此外,在现实生活场景中,量化方法与普通模型 (QAT) 和精简模型 (PTQ) 不同,因此我们决定使用相同的 PTQ 方法(相同的图像、参数……)对两个模型族进行量化。这将产生可比较的结果。 

在嵌入式设备上部署分类模型时,我们通常将它们转换为 fp16 或 int8 并更改输入大小。这样做是因为证明输入大小、准确性和推理时间之间存在相关性。这意味着输入的大小越大,模型可能越准确,但代价是推理时间显著延长。影响推理时间和准确性的另一个参数是模型本身的大小(B0、B1、...)。因此,在选择适合您需求的组合之前,最好先对所有组合进行基准测试。 

例如,输入大小为 100x100 的 EfficientNet-B2 可以与输入大小为 224x224 的 EfficientNet-B0 一样快,但 B2 的准确度会提高 0.5%;推理时间和准确性之间的平衡是一个巨大的挑战。这就是为什么在本节中,我们决定展示基于相同结构的多个模型,具有多个批量大小和多个输入大小。

FP16

(更多评测结果可以阅读原文)

基于上述漂亮的条形图,我们绝对可以得出一些结论。首先,正如预期的那样,Jetson AGX Orin 比它的兄弟 Jetson AGX Xavier 快得多。

话虽如此,再次证明仅靠 TOPS 或 FLOPS 无法为我们提供真正的性能洞察力。

批量大小为 32 且输入大小为 224x224 的 EfficientNet-B4 在 Jetson AGX Orin 上的速度与在具有相同配置的 Jetson AGX Xavier 上运行的 EfficientNet-B0 一样快。

此外,B4 在 ImageNet 上的 top-1 准确率为 82.9%,而 B0 的准确率为 77.1%。

因此,如果您在 Jetson AGX Xavier 上运行的项目的 FPS 性能可以接受并且不需要更多功能,那么您可以在使用 Jetson AGX Orin 时部署更大的模型并拥有更准确的管道。

INT8

(更多评测结果可以阅读原文)

上面的图表看起来和 fp16 的结果非常相似,不是吗?事实上,Jetson AGX Orin 和 Jetson AGX Xavier 在这个 int8 上下文中的性能比率似乎与 fp16 相同。然而,如果性能比大致相同,则仔细观察,测量推理时间的横坐标轴预计会有所不同,特别是当批量大小和/或输入大小更大时。对于 fp16 和 int8,越大 输入大小和批量大小,Jetson AGX Xavier 和 Jetson AGX Orin 之间的差距越大。总之,小输入大小和小批量大小可能不会向我们展示 3 倍的性能差异。我们通过实验看到,在更大模型的情况下,与 AGX Xavier 相比,Jetson AGX Orin 的性能可以达到甚至超过 3 倍。

根据我们迄今为止的测试,Jetson AGX Orin 似乎是 Jetson 家族中非常有前途的新成员。然而,我们还没有进行最后一次测试。由于 DLA 内核不同,我们将尝试使用 NVIDIA AI IOT jetson_benchmarks 进行公平可靠的比较。虽然不是为支持 AGX Orin 而设计的,但对脚本进行一些修改后,我们就可以运行基准测试并获得以下结果:

结论

我们通过这些基准测试表明,Orin 是 Jetson 系列的一个非常有前途的新成员,我们可以期待在不久的将来通过软件更新获得更好的结果。通过发布 NVIDIA Jetson AGX Orin,NVIDIA 无可争议地让嵌入式 AI 世界向前迈出了一大步。Jetson Xavier 设备已经非常强大且充满潜力,Orin 现在为嵌入式 AI 的持续增长铺平了道路。我们现在可以计划和开展我们以前甚至无法想象的更大、更复杂的项目。对于那些受任务数量限制的人,NVIDIA 将标准推得更高。事实上,在使用 Jetson AGX Orin 仅仅几天之后,我们 SmartCow 已经在重新考虑我们的嵌入式解决方案,以提出更多的功能、更好的准确性和可靠性;这是一个很大的改变游戏规则。

原文:

https://medium.com/@Smartcow_ai/is-the-new-nvidia-jetson-agx-orin-really-a-game-changer-we-benchmarked-it-b3e390f4830a 

  • 0
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: NVIDIA Jetson AGX Orin是一款高性能的嵌入式计算平台,适用于人工智能和机器学习应用。它采用了NVIDIA自主研发的Orin芯片,具有强大的计算能力和低功耗特性,可用于自动驾驶、机器人、智能城市等领域。该平台还支持多种传感器和接口,可实现多种应用场景。 ### 回答2: NVIDIA Jetson AGX Orin是一款功能强大的嵌入式计算平台,专为边缘计算和AI应用而设计。它可以处理复杂的视觉、声音和多传感器融合任务,是集成高性能计算、AI推理和视觉图像处理的终极解决方案。 Jetson AGX Orin的特点包括超高的计算性能、低延迟的响应时间、智能化的信号处理和丰富的数据接口。它采用12颗Arm Cortex-A78 CPU核心和6颗NVIDIA Ampere GPU,可支持11T层次的Tensor Core加速,性能比前一代Jetson Xavier AGX提高了1.7倍。 此外,Jetson AGX Orin还具有高效的功耗控制和灵活的软件开发环境。它支持NVIDIA的JetPack和DeepStream SDK,提供完整的AI软件栈和工具套件,可轻松实现目标检测、语音识别、自动驾驶等复杂的应用场景。 总的来说,NVIDIA Jetson AGX Orin是一款非常先进和功能强大的嵌入式计算平台,可满足各种边缘计算和AI应用的需求。无论是智能制造、无人驾驶还是智能安防等领域,它都能提供快速、精确和高效的计算和分析能力。 ### 回答3: NVIDIA Jetson AGX Orin是一款高性能的AI计算平台,可以帮助开发者快速构建高级智能应用。它采用了NVIDIA自主设计的Orin系统芯片,拥有24个CPU和9个CUDA加速器,并支持多种视觉化处理技术。Jetson AGX Orin不仅具有高性能和低功耗的特点,还集成了许多传感器和接口,可以支持各种不同的应用场景,如自动驾驶、智能家居、工业自动化等。 Jetson AGX Orin的CPU采用了NVIDIA自主设计的Carmel核心,这是一种高性能的64位ARMv8 CPU,最高主频可达2.7GHz,具有强大的计算处理能力。它还配备了9个NVIDIA自主设计的CUDA加速器,其中8个可用于AI计算,1个用于图像信号处理。这些加速器可以在原始数据上进行高效且实时的计算,支持深度学习模型和图像处理算法的加速。 除了强大的处理能力,Jetson AGX Orin还与多种传感器和接口相结合,例如6路CSI-2相机接口、HDMI、USB-C和Gigabit以太网等接口。同时,它还集成了多种传感器,包括雷达、毫米波雷达和激光雷达等,可用于实现环境感知、位置和导航、障碍物检测和避障等功能。 总之,NVIDIA Jetson AGX Orin是一款高度集成的AI计算平台,拥有强大的计算能力和多种传感器和接口。它可以帮助开发者快速构建高级智能应用,解锁AI的潜力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值