Jetson Nano 人工智能计算

最新推荐文章于 2024-04-15 18:34:41 发布

jim0506

最新推荐文章于 2024-04-15 18:34:41 发布

阅读量3.2k

点赞数 1

分类专栏：人工智能文章标签：人工智能

本文链接：https://blog.csdn.net/u012841414/article/details/120541764

版权

人工智能专栏收录该内容

3 篇文章 0 订阅

订阅专栏

FLOPS是Floating-point Operations Per Second的缩写，代表每秒所执行的浮点运算次数。现在衡量计算能力的标准是TFLOPS（每秒万亿次浮点运算）

NVIDIA显卡算力表：https://developer.nvidia.com/cuda-gpus#compute

例如：以GTX680为例，单核一个时钟周期单精度计算次数为两次，处理核个数为1536，主频为1006MHZ，那他的计算能力的峰值P 为：P = 2 × 1536 × 1006MHZ = 3.09TFLOPS，1T为1兆，也就是说，GTX680每秒可以进行超过3兆次的单精度运算。

各种FLOPS的含义
MFLOPS (megaFLOPS)：每秒一百万 (=10^6) 次的浮点运算

GFLOPS (gigaFLOPS) ：每秒十亿 (=10^9) 次的浮点运算

TFLOPS (teraFLOPS) ：每秒一万亿 (=10^12) 次的浮点运算

PFLOPS (petaFLOPS) ：每秒一千万亿 (=10^15) 次的浮点运算

补充：
算力单位

TOPS（Tera Operations Per Second）：1TOPS代表处理器每秒钟可进行一万亿次（10^12）操作。

GOPS（Giga Operations Per Second）：1GOPS代表处理器每秒钟可进行一亿次（10^9）操作。

MOPS（Million Operation Per Second）：1MOPS代表处理器每秒钟可进行一百万次（10^6）操作。

在某些情况下，还使用 TOPS/W 来作为评价处理器运算能力的一个性能指标，TOPS/W 用于度量在1W功耗的情况下，处理器能进行多少万亿次操作。

2、LPDDR RAM是“低功耗双倍数据速率内存”的缩写，与桌面平台的DDR4内存相比，面向移动平台的LPDDR4，其能够在带来等效的性能(速度)的同时，兼顾更少的能源消耗。

说到节能，最简单的就是降低运行电压了。LPDDR3的电压为1.2V，但是LPDDR4已经进一步降低到了1.1V。此外，新标准还改进了低频节能模式，因此设备可以在执行简单的后台任务的同时，将始终速度降下来，以便进一步节能电能。

[图]关于LPDDR4内存：你需要知道的几件事 - 硬件 - cnBeta.COM

3、eMMC就是一个存储芯片，就像SD卡一样，用于存取数据。从普通开发者角度看，只要遵循eMMC协议，就可以对eMMC芯片进行读写操作。（拓展：SD卡、UFS芯片、eMMC芯片、U盘都是类似的功能，从使用角度看，只是接口不同、通信协议不同，本教程只涉及目前最新的eMMC芯片，遵循eMMC5.1协议。）eMMC ，即：Embedded Multi Media Card 的缩写。由一个嵌入式存储解决方案组成，带有MMC接口、快闪存储器设备及主控制器。所有都在一个小型的BGA 封装。接口速度最高可达每秒400MBytes，其接口电压可以是1.8V或者是3.3V。

eMMC ，即：Embedded Multi Media Card 的缩写。由一个嵌入式存储解决方案组成，带有MMC接口、快闪存储器设备及主控制器。所有都在一个小型的BGA 封装。接口速度最高可达每秒400MBytes，其接口电压可以是1.8V或者是3.3V。

eMMC5.1入门教程【1】eMMC简介与协议概览_mm13420109325的博客-CSDN博客

4、高效视频编码（HEVC），也称为H.265，可以通过蓝光最佳视频压缩方法实现两倍的压缩。

5、CUDA（Compute Unified Device Architecture），是显卡厂商NVIDIA推出的运算平台。 CUDA™是一种由NVIDIA推出的通用并行计算架构，该架构使GPU能够解决复杂的计算问题。它包含了CUDA指令集架构（ISA）以及GPU内部的并行计算引擎。开发人员可以使用C语言来为CUDA™架构编写程序，C语言是应用最广泛的一种高级编程语言。所编写出的程序可以在支持CUDA™的处理器上以超高性能运行。CUDA3.0已经开始支持C++和FORTRAN。

CUDA_百度百科

6、

什么是TensorRT
一般的深度学习项目，训练时为了加快速度，会使用多 GPU 分布式训练。但在部署推理时，为了降低成本，往往使用单个 GPU 机器甚至嵌入式平台（比如 NVIDIA Jetson）进行部署，部署端也要有与训练时相同的深度学习环境，如 caffe，TensorFlow 等。由于训练的网络模型可能会很大（比如，inception，resnet 等），参数很多，而且部署端的机器性能存在差异，就会导致推理速度慢，延迟高。这对于那些高实时性的应用场合是致命的，比如自动驾驶要求实时目标检测，目标追踪等。所以为了提高部署推理的速度，出现了很多轻量级神经网络，比如 squeezenet，mobilenet，shufflenet 等。基本做法都是基于现有的经典模型提出一种新的模型结构，然后用这些改造过的模型重新训练，再重新部署。

而 TensorRT 则是对训练好的模型进行优化。 TensorRT 就只是推理优化器。当你的网络训练完之后，可以将训练模型文件直接丢进 TensorRT中，而不再需要依赖深度学习框架（Caffe，TensorFlow 等），如下：

可以认为 TensorRT 是一个只有前向传播的深度学习框架，这个框架可以将 Caffe，TensorFlow 的网络模型解析，然后与 TensorRT 中对应的层进行一一映射，把其他框架的模型统一全部转换到 TensorRT 中，然后在 TensorRT 中可以针对 NVIDIA 自家 GPU 实施优化策略，并进行部署加速。

jim0506

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Jetson Nano 人工智能计算

FLOPS是Floating-point Operations Per Second的缩写，代表每秒所执行的浮点运算次数。现在衡量计算能力的标准是TFLOPS（每秒万亿次浮点运算）NVIDIA显卡算力表：https://developer.nvidia.com/cuda-gpus#compute例如：以GTX680为例，单核一个时钟周期单精度计算次数为两次，处理核个数为1536，主频为1006MHZ，那他的计算能力的峰值P 为：P = 2 × 1536 × 1006MHZ = 3.09TFL
复制链接

扫一扫