AI边缘计算(嵌入式AI)硬件信息汇总

最新推荐文章于 2024-08-12 16:27:55 发布

myg22

最新推荐文章于 2024-08-12 16:27:55 发布

阅读量1.4w

点赞数 12

分类专栏： AI

本文链接：https://blog.csdn.net/myg22/article/details/84171286

版权

本文对比了各类嵌入式AI硬件，包括Intel的Mobileye、Movidius、Nervana NNP，Google的Edge TPU，NVIDIA的Jetson系列，以及GTI的光矛处理器等。在考虑面积、速度、重量、功耗和价格等因素后，重点推荐了Intel Movidius NCS2、Jetson TX2和Laceli™ 人工智能计算棒作为验证方案。各硬件在性能、能耗比和价格上有显著差异，适合不同应用场景。

摘要由CSDN通过智能技术生成

Movidius Myriad 2 VPU

Movidius Myriad X VPU

Intel® Neural Compute Stick

Intel® Neural Compute Stick 2

Edge TPU（Tensor Processing Units）

海青智盈Gyrfalcon Technology Inc.（简称GTI）

公司简介

光矛处理器 Lightspeeur® 2801S

角蜂鸟(Horned Sungem)AI视觉套件

需求

1.面积要小，5cm*8cm左右

2.目标识别速度要快，30fps左右

3.重量要轻，50g以下

4.功耗要低。电池供电，功耗小于15W

5.价格要合适

方案评估

树莓派+intel Movidius NCS或intel Movidius NCS2

NCS基于myriad 2，NCS2基于myriad X。NCS2处理速度是NCS 8倍

up core或up board+intel Movidius NCS或intel Movidius NCS2

若树莓派处理速度不够，可以换成up板

Jetson TX2+第三方小型底板

不知性能如何。配下来￥5000左右

Jetson Xavier

相较于前一代Jetson TX2，可以提供超过20倍以上效能。

价格也比较过瘾，￥12999

研扬科技的UP AI core和UP AI core X

这两个单板分别采用intel Movidius myriad 2和myriad X处理器。功能和intel Movidius NCS一样。可不予考虑

google AIY Edge TPU

NXP i.MX8M CPU板+ Edge TPU

才面世，还未供货

cpu板+google AIY Edge TPU加速器

才面世，还未供货

角蜂鸟AI视觉套件

还是采用intel Movidius Myriad 2 VPU，多了一个摄像头

Laceli™ 人工智能计算棒

内置Lightspeeur® 2801S芯片的Laceli™ 人工智能计算棒可以在1瓦的功率下提供超过每秒9.3万亿次浮点运算的性能，而Movidius每瓦功率范围的运算力则是0.1万亿次。

看指标很牛叉，可以一试。小公司产品，技术支持、软件工具配套不一定完善。

1，效率能耗比为9.3Tops/W
2，单芯片峰值运算能力5.6Tops，运行VGG网络可到130FPS
3，在功耗180毫瓦下，运行VGG网络可达30FPS;运行AlexNet网络可达48FPS.
4， ImageNet 图像分类运行网络精度：VGG为66%，Alexnet为58%，

综上所述，重点验证下面三种方案

1.CPU板+intel Movidius NCS或NCS2

2.Jetson TX2

3.CPU板+Laceli™ 人工智能计算棒

下面是各大公司的嵌入式AI方案详情：

intel

Mobileye

公司

Mobileye 专注自动驾驶，是 Autopilot 的幕后功臣，被intel收购

Mobileye，1999年成立，2007年推出首款产品，2014年8月1号在纽交所上市。公司主要从事汽车工业的计算机视觉算法和驾驶辅助系统芯片技术的研究。Mobileye的产品覆盖了全球50个国家，据官方资料显示，截至2015年底，Mobileye在全球有1000万的装载量，到2016年底会有273款车的SOP的合同。

EyeQ系列

Mobileye具有自主研发设计的芯片EyeQ系列，由意法半导体公司生产供应。现在已经量产的芯片型号有EyeQ1、Eye Q2、EyeQ3，EyeQ4

目前Mobileye后装产品的终端售价约为8000元左右，前装价格会低很多。

Mobileye不同芯片可以实现不同的ADAS功能。其中EYEQ2支持产品级的AEB，EyeQ3是支持full AEB。EyeQ2等级只能做到ASIL-B，EyeQ3可以做到ASIL-D等级。（ASIL，Automotive Safety Integration Level，汽车安全完整性等级，是ISO26262中的系统危害风险等级指标，从A到D产品的安全等级依次增加。）

EyeQ5将装备8枚多线程CPU内核，同时还会搭载18枚Mobileye的下一代视觉处理器。相比而言，EyeQ4作为上一代视觉SoC芯片，只配置了4个CPU内核和6个矢量微码处理器（Vector Microcode Processor，俗称VMP）

Movidius

公司

2016年9月英特尔宣布将收购计算机视觉创业公司Movidius，这家公司也是谷歌Project Tango 3D传感器技术背后的功臣。

Movidius Myriad 2 VPU

Movidius Myriad X VPU

Intel® Neural Myriad X拥有Movidius称之为神经计算引擎（Neural Compute Engine）的功能，这是一种集成在芯片上的DNN加速器。Movidius称，有了它，Myriad X的DNN推理吞吐量能达到每秒超过一万亿次运算（TOPS），而理论运算量能达到4+ TOPS。

Myriad X在相同功耗下的额外性能，很大程度上是因为其使用了16nm的制造工艺，台积电代工，从而能将节省的功率投入到SHAVE处理器，加速器，接口和内存中。

英特尔的Myriad™X VPU是Intel英特尔公司Movidius™的第三代和先进的VPU。英特尔的Myriad™X VPU是第一款采用神经计算引擎的产品 - 神经计算引擎 - 用于深度神经网络推理的专用硬件加速器。神经计算引擎与16个强大的SHAVE内核和超高吞吐量智能内存结构相结合，使Myriad X成为设备上深度神经网络和计算机视觉应用的行业领导者。英特尔的Myriad™X VPU已经接受了对成像和视觉引擎的额外升级，包括额外的可编程SHAVE核心，升级和扩展的视觉加速器，以及支持最多8个直接连接到VPU的高清传感器的原生4K ISP管道。

与Myriad™2一样，Myriad™X VPU可通过Myriad开发套件（MDK）进行编程，该套件包括所有必要的开发工具、框架和API，以在芯片上实现自定义视觉，成像和深度神经网络工作负载。

来源： https://item.taobao.com/item.htm?spm=a230r.1.14.122.5782720aARaQPt&id=582115922391&ns=1&abbucket=20#detail

Myriad X的其它主要参数如下：

Myriad X还有四个支持C语言的可编程128位VLIW矢量处理器（ C-programmable 128-bit VLIW），源自Myriad 2的可配置MIPI通道，以及扩展了的2.5 MB芯片内存，更多固定功能的成像/视觉加速器。
与Myriad 2一样，Myriad X的向量单元是针对计算机视觉工作负载优化的SHAVE处理器。Myriad X还支持最新的LPDDR4。
Myriad X中的另一个新功能是4K硬件编码，支持30 Hz Hz（H.264/H.265）和60 Hz（M/JPEG）。接口方面，Myriad X支持USB 3.1和PCIe 3.0，这都是新加的功能。
虽然没有公开具体细节，但Myriad X VPU还附带SDK，其中包含神经网络编译器和专用的FLIC框架。不过目前没有关于参考硬件的细节。

来源： https://www.leiphone.com/news/201708/e034DEvlXgYMgqU6.html

除了神经计算引擎，Myriad X还通过独特地实时整合了成像、视觉处理和深度学习推理

可编程的128位VLIW向量处理器：

通过为计算器视觉工作负载而优化的16个向量处理器，可同时运行多个成像和视觉应用流水线。

增加可配置的MIPI信道：

通过丰富接口和16个MIPI信道，可以将最多8个高清RGB镜头直连到Myriad X，图像信号处理吞吐量最高每秒7亿像素，还支持USB 3.1、PCI-E 3.0。

强化的视觉加速器：

利用20多个硬件加速器执行光流和立体深度等任务，不需要额外的计算开销。

2.5MB多核异构同质片上内存：

集中化的芯片内存架构，最高支持450GB/s内部带宽，尽量减少芯片外部数据传输，最小化数据访问的延迟并降低功耗。

4K视频硬件编码：

支持4K/30Hz H.264/H.265、4K/60Hz M/JPEG格式。

Intel® Neural Compute Stick

Movidius™ Myriad™ 2 VPU

使用过Movidius NCS神经计算棒的同学应该清楚，NCS做推理是要将文件传输到NCS神经计算棒中处理的，而目前英特尔提供的SDK只支持USB2.0的速率传输，所以你现在使用那根USB3.0接口的神经计算棒，无论在USB2.0的主机(如树莓派)上还是USB3.0的主机(如UP Squared Board)上，速度其实还是没什么差别。