Jetson Nano 人工智能计算

FLOPS是Floating-point Operations Per Second的缩写,代表每秒所执行的浮点运算次数。现在衡量计算能力的标准是TFLOPS(每秒万亿次浮点运算)

NVIDIA显卡算力表:https://developer.nvidia.com/cuda-gpus#compute

例如: 以GTX680为例, 单核一个时钟周期单精度计算次数为两次,处理核个数 为1536, 主频为1006MHZ,那他的计算能力的峰值P 为:P = 2 × 1536 × 1006MHZ = 3.09TFLOPS,1T为1兆,也就是说,GTX680每秒可以进行超过3兆次的单精度运算。

各种FLOPS的含义
MFLOPS (megaFLOPS):每秒一百万 (=10^6) 次的浮点运算

GFLOPS (gigaFLOPS) :每秒十亿 (=10^9) 次的浮点运算

TFLOPS (teraFLOPS) :每秒一万亿 (=10^12) 次的浮点运算

PFLOPS (petaFLOPS) :每秒一千万亿 (=10^15) 次的浮点运算

补充:
算力单位

TOPS(Tera Operations Per Second):1TOPS代表处理器每秒钟可进行一万亿次(10^12)操作。

GOPS(Giga Operations Per Second):1GOPS代表处理器每秒钟可进行一亿次(10^9)操作。

MOPS(Million Operation Per Second):1MOPS代表处理器每秒钟可进行一百万次(10^6)操作。

在某些情况下,还使用 TOPS/W 来作为评价处理器运算能力的一个性能指标,TOPS/W 用于度量在1W功耗的情况下,处理器能进行多少万亿次操作。

2、LPDDR RAM是“低功耗双倍数据速率内存”的缩写,与桌面平台的DDR4内存相比,面向移动平台的LPDDR4,其能够在带来等效的性能(速度)的同时,兼顾更少的能源消耗。

说到节能,最简单的就是降低运行电压了。LPDDR3的电压为1.2V,但是LPDDR4已经进一步降低到了1.1V。此外,新标准还改进了低频节能模式,因此设备可以在执行简单的后台任务的同时,将始终速度降下来,以便进一步节能电能。

[图]关于LPDDR4内存:你需要知道的几件事 - 硬件 - cnBeta.COM

3、eMMC就是一个存储芯片,就像SD卡一样,用于存取数据。从普通开发者角度看,只要遵循eMMC协议,就可以对eMMC芯片进行读写操作。(拓展:SD卡、UFS芯片、eMMC芯片、U盘都是类似的功能,从使用角度看,只是接口不同、通信协议不同,本教程只涉及目前最新的eMMC芯片,遵循eMMC5.1协议。)eMMC ,即:Embedded Multi Media Card 的缩写。由一个嵌入式存储解决方案组成,带有MMC接口、快闪存储器设备及主控制器。所有都在一个小型的BGA 封装。接口速度最高可达每秒400MBytes,其接口电压可以是1.8V或者是3.3V。

eMMC ,即:Embedded Multi Media Card 的缩写。由一个嵌入式存储解决方案组成,带有MMC接口、快闪存储器设备及主控制器。所有都在一个小型的BGA 封装。接口速度最高可达每秒400MBytes,其接口电压可以是1.8V或者是3.3V。

eMMC5.1入门教程【1】eMMC简介与协议概览_mm13420109325的博客-CSDN博客

4、高效视频编码(HEVC),也称为H.265,可以通过蓝光最佳视频压缩方法实现两倍的压缩。

5、CUDA(Compute Unified Device Architecture),是显卡厂商NVIDIA推出的运算平台。 CUDA™是一种由NVIDIA推出的通用并行计算架构,该架构使GPU能够解决复杂的计算问题。 它包含了CUDA指令集架构ISA)以及GPU内部的并行计算引擎。 开发人员可以使用C语言来为CUDA™架构编写程序,C语言是应用最广泛的一种高级编程语言。所编写出的程序可以在支持CUDA™的处理器上以超高性能运行。CUDA3.0已经开始支持C++FORTRAN

​​​​​​CUDA_百度百科

6、

什么是TensorRT
一般的深度学习项目,训练时为了加快速度,会使用多 GPU 分布式训练。但在部署推理时,为了降低成本,往往使用单个 GPU 机器甚至嵌入式平台(比如 NVIDIA Jetson)进行部署,部署端也要有与训练时相同的深度学习环境,如 caffe,TensorFlow 等。由于训练的网络模型可能会很大(比如,inception,resnet 等),参数很多,而且部署端的机器性能存在差异,就会导致推理速度慢,延迟高。这对于那些高实时性的应用场合是致命的,比如自动驾驶要求实时目标检测,目标追踪等。所以为了提高部署推理的速度,出现了很多轻量级神经网络,比如 squeezenet,mobilenet,shufflenet 等。基本做法都是基于现有的经典模型提出一种新的模型结构,然后用这些改造过的模型重新训练,再重新部署。

而 TensorRT 则是对训练好的模型进行优化。 TensorRT 就只是推理优化器。当你的网络训练完之后,可以将训练模型文件直接丢进 TensorRT中,而不再需要依赖深度学习框架(Caffe,TensorFlow 等),如下:

可以认为 TensorRT 是一个只有前向传播的深度学习框架,这个框架可以将  Caffe,TensorFlow 的网络模型解析,然后与 TensorRT 中对应的层进行一一映射,把其他框架的模型统一全部转换到 TensorRT 中,然后在 TensorRT 中可以针对 NVIDIA 自家 GPU 实施优化策略,并进行部署加速。


 


 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值