大模型驱动大算力时代，FPGA赋能边缘AI的市场机会及前景

随着大模型的快速的发展，人工智能正在改变嵌入式硬件系统。在今年上海国际嵌入式展的开幕主题报告中，芯原股份董事长兼总裁戴伟民博士分享说：“我们即将迎来新一轮的'牛市'。上一轮，是以2010年iphone4为代表的智能手机，正式开启移动互联网'牛市'（2013-2015）。这个时期的特点是先硬后软。而以ChatGPT为代表的大模型，将引领大算力硬件的'牛市'。这一时期，将是先软后硬。”

微信图片_20240703060050.png

同在今年6月，黄仁勋在COMPUTEX 2024的演讲中也预测，未来AI产业规模将高达100万亿美元，比之前IT时代的3万亿美元要高出33万倍以上。可见市场前景之广阔。

AI处理重心向边缘转移，已经是行业共识。各类端侧AI应用，也已开始竞相布局。中关村智用人工智能研究院孙明俊院长在嵌入式大会开幕式上表示：“未来三至五年，AI会融入到嵌入系统，并带来共同的深入改变。在快速推进的背景下，端侧的需求会更高。尤其表现在对端侧芯片处理能力的需求变化，以及会出现大量专用端侧芯片的需求。”

边缘AI一个非常显著的特征就是更强的并行计算能力，以及不断更新的AI算法。而网络边缘设备需要AI解决方案能增强实时在线功能，包括更强的情景感知能力、更高的能效、灵活和低延迟的传感器桥接，以及更低的复杂性和简化的集成。

AI 芯片是其中的关键。从技术架构的角度来看，AI 芯片可分为GPU、FPGA和ASIC。按网络位置不同，又可分为云端芯片和边缘芯片。按应用目标分类，则又可分为训练芯片和推理芯片。其中，FPGA，因其现场可编辑性的优势，被誉为“万能芯片”。那么，在边缘AI大发展趋势下，FPGA如何来实现AI。

在此次的嵌入式展上，EETOP深度走访了FPGA知名供应商莱迪思（Lattice）科技公司，详细观摩了他们此次参展的产品及相关Demo，并与莱迪思（Lattice）亚太地区应用工程高级总监谢征帆进行了深入交流。对FPGA在端侧的AI实现又有了不少新的发现和认识。

微信图片_20240703053128.jpg

谢征帆, 莱迪思（Lattice）亚太地区应用工程高级总监

Sensor Bridging助力NVIDIA加速边缘AI应用开发

去年12月，在莱迪思半导体开发者大会上，莱迪思宣布推出新型参考传感器桥接设计。它是一套开源的参考开发板，基于莱迪思低功耗CertusPro-NX FPGA和NVIDIA Jetson Orin和IGX Orin平台，通过NVIDIA Holoscan传感器桥无缝耦合，进行数据采集和处理。

此次嵌入式展上，莱迪思特别用心的从美国运来了与NVIDIA一起联合开发的demo。据介绍，这个具备Sensor Bridging功能的Demo，主要实现了多路Video通过以太网口汇聚到英伟达基于IGX/AGX平台的Edge Computing盒子中，以提供更多的视觉输入。莱迪思提供的FPGA，主要起到“聚合”的功能。传感器经过FPGA 芯片，汇聚成视频流，再转换成实际的以太网，最后进入到盒子里。真正实现AI相关功能的，则交由NVIDIA芯片来进行处理。

AI 芯片的原理是通过训练和学习算法，将大量的数据输入到神经网络结构中，并对输入数据进行快速、准确的处理和分析。其中，主要的结构包括输入层、隐藏层和输出层。输入层主要是接收数据，并将其传递到隐藏层，隐藏层会通过神经元之间的连接，将信息传递到输出层，最终输出想要的结果。

那么，用FPGA来实现Sensor的融合，有什么优势？其中的难点和挑战又是什么？EETOP就这方面的问题，特别请教了谢征帆。

据他介绍，大部分环境和系统里面，Sensor的数目是不断地增加的。除了高速的Sensor以外，还有可能有高清的摄像头输入，以及红外或者其它低速的Sensor也需要进行汇集。对于SoC来讲，管脚数目是非常大的限制。因为需要连接非常多的外设，它没有办法提供多个Sensor接口来直接把这些Sensor汇聚进芯片里。这就需要用FPGA把不同的数据进行先整合，之后再交由芯片对数据进行处理。

Sensor Bridging功能主要是让客户能够拿到更多的视频流，数据汇聚完之后，通过芯片交给GPU进行处理。谢征帆介绍说：“我们在做这个应用的时候，一个比较大的挑战就是它的接口协议种类特别多。这就需要在考虑方案的时候，把所有的接口都处理好。除了前端接收需要考虑接口问题外，在往后端传输视频流的时候，也需要适配不同的接口。除了连接，还需要做预处理，做一些简单的前端ISP处理。具体会根据客户的需要，来提供不同的预处理方案。”

微信图片_20240703061015.png

据了解，莱迪思早在五六年前，就开始着眼于FPGA在AI领域的拓展。目前除了软件、硬件外，更强调的是解决方案，其中sensAI™是最早提出的。它主要是基于神经网络来做人脸或者物体检测，属于比较早期的阶段。后来随着神经网络的不断迭代，网络结构也越发复杂，并且随着AI的输入视频源越来越多，用GPU来做数据的前期处理，显然有点大材小用。于是莱迪思开始尝试用通用的器件来做AI前端的处理。谢征帆特别强调说：“莱迪思的解决方案虽然参与神经网络的处理，但不做training，只做inference。”

据分享，Sensor Bridging旨在满足开发人员在设计用于医疗保健、机器人和嵌入式视觉的高性能边缘AI应用时对连接各种传感器和接口、设计可扩展性和低延迟的需求，可大幅简化并加速需要不同传感器输入接口和协议的智能边缘系统的部署。

计算机视觉注意力感知软件推动生成式AI

AI要通过FPGA来实现的话，除了硬件架构，还需要有好的软件环境。在莱迪思提供的sensAI™解决方案中，硬件有最新的Avant FPGA，它能够比 DSP处理更多的数据，并且能够针对8位的数据类型做优化；软件有Neural Network Builder 和 Compiler，可以支持非常多的主流AI 架构和机器学习架构。

PC和AI眼镜是未来边缘端侧的重要载体

在此次展示中，莱迪思通过两台PC电脑，展示了多种基于软件实现的AI功能，如注意力追踪功能、脸部识别功能、疲劳检测功能等。Demo演示中，可通过眼神注视来对PC电脑的菜单进行选择，并且会自动帮忙打开正在注视的文件。谢征帆解说时说：“这完全是基于纯软件的功能，通过观察瞳孔的方向来帮助实现控制，并提供前端的输入，最后交由莱迪思Glance软件提供AI的功能。”

通过利用莱迪思sensAI™技术，PC还可以在用户接近或离开时自动开机/关机，警告用户不要围观，并通过在用户分心时调暗屏幕来延长电池寿命。不过，由于PC受环境影响比较大，精度上有一定干扰。谢征帆介绍：“它属于早期的预演阶段，离真正的产品化还有段距离。不过已经有AI眼镜的用户，在尝试用这个来做原型机，实现AI应用。因为AI眼镜局部环境相对固定，不会受背景影响，可以提供非常高的精度。通过眼球来进行选择，可提供更加丰富的控制功能。”

AI眼镜，被认为是AIGC时代或将引爆市场的终端设备。戴伟民在主题演讲中分享了第十三届芯原CEO论坛对大模型未来给出的五大预测，其中一个就是：到2026年，全球双目全彩AR眼镜出货量将突破1,000万台。AIGC，即Artificial Intelligence Generated Content生成式人工智能，是人工智能1.0时代进入2.0时代的重要标志，也是终端设备由+AI转向AI+的明显过渡。从2017年6月Google发布论文《Attention is all you need》,首次提出Transformer模型；到2018年6月，OpenAI发布论文《Improving Language Understanding by Generative PreTraining》，首次提出GPT模型；再到2024年2月，OpenAI发布具有突破性的Sora视频生成模型，支持60秒一镜到底。不断迭代创新的算法，多模态大模型都在推动AIGC具备更通用和更强的基础能力。

微信图片_20240703062348.png

从计算智能、感知智能再到认知智能，AIGC为人类社会生产力发展带来了质的飞跃。戴伟民博士表示：“始终在线”的轻量化智慧可穿戴设备是AIGC的入口。用“始终在线”的轻量级可穿戴设备持续感知视觉、声音和动作等，并连接到系统，通过上下文意识，来预测用户的环境、情境和需求。在莱迪思的展台上，也展示了多个基于感知功能的Demo。

微信图片_20240703062231.jpg

除了AI眼镜，PC被认为是未来AI的主要载体。因为PC具有强大的计算和存储能力，丰富的交互方式以及广泛的应用场景，使其成为适合承载大模型的理想平台。戴伟民分享说：“PC是承载最多场景的个人通用设备，是迄今为止最强的个人计算平台，还是存储容量最大、最受依赖的安全终端，完全具备全模态的人机自然交互能力。”

在莱迪思的展台上，EETOP小编也看到了基于莱迪思CrosslinkU-NX （LIFCL-33U）芯片搭建的Demo，它可为PC在Sensor后端提供和AI相关的运用，包括为计算机自动解锁和security保护，同时还包括语音检测、人脸识别、场景分类、防偷窥等传统应用。除了更加丰富的用户体验之外，低功耗也是一大特色。

智能汽车依然是FPGA的重要竞技场

摄像头的输入只是边缘端侧AI实现的一部分。对智能汽车的监控，则要涉及到更多处理，比如是不是打瞌睡，有没有分心等，这主要就是DMS疲劳检测的功能。谢征帆介绍说：“我们的软件支持多用户软件检测，并且同样一套网络可以实现多种内容的检测追踪，能够做一些机器学习之后应用场景其实是很多的。”

莱迪思最近一两年一直在推广Local Dimming的方案，它是eDisplay解决方案中的一部分。eDisplay就是所谓的Embedded Display，或者叫Enhanced Display，涉及到所有显示相关的应用。本次展示区，莱迪思展示了一个Local Dimming局部调光的demo。

众所周知，LED是由背光板来提供光源的。因此，显示质量的好坏，很大程度上是取决于背光板的亮度。传统的做法是背部有一个统一的光源，由于不能根据每一个区域实际的亮度来进行调整，因此屏幕上颜色亮度的分辨差异是非常大的。通常，背光的精度是用分区数目来定义的。如电视机可能分区就是256个。但是对于高端显示器，比如应用在游戏里面的显示器，或者针对汽车里面用的，汽车的中控屏或者副驾驶的娱乐屏都会在里面放Local Dimming。Local Dimming把屏幕分割成2048或者几K的分区，每个分区的后面都会有一个LED来提供背光的亮度。Local Dimming可以把屏幕分成非常小的分区，并且可以支持任意的异形屏，在汽车里的长条或者有弧度的都可以。

此外，Local Dimming除了应用在显示中，同样的功能可以迁移到不同的应用场合。当前，越来越多的应用领域转换到视频上的管理，以及视频处理方面。CMS（Camera Monitor System）方案是这两年汽车领域有很多供应商都开始关注的。传统意义上，汽车反光镜是物理的光学反光镜，会有很大的限制，比如说在雨天，会受到雨水的影响，或者在潮湿天气，两边车窗起雾以后会造成影响，会影响驾驶安全。现在越来越多的车厂考虑用摄像头来替代物理的光学反光镜。

那么CMS为什么应用FPGA？谢征帆解说到：“FPGA有几大优势，首先最主要的就是低延时。因为反光镜是实时的，从用户感知来说，从视频采集到视频显示，需要做到低延时，如几十毫秒或者更低。如果用MCU或者嵌入式处理器，基本无法达到这个要求。莱迪思的HUD方案则可以提供这样的效果。”

FPGA在AI领域的丰富应用

在AI领域，莱迪思有很多的应用。展示区还有一个农业智能机器的Demo，主要是花椒筛选的色选机方案。工作流程大致是当一批固体落下时，要把和花椒的形状一致的东西挑选出来。如果判断不是花椒，则通过气流将其吹掉。传统色选机用的是CV方案，精度相对比较低。新的AI的方案，会对可能存在的形状加标注，之后放到神经网络里进行训练，最后再将训练出来的神经网络参数放到NN Demo里，就可以实现精准的筛选功能。

谢征帆介绍说，目前这个Demo的原型机已经完成设计，其它豆类或谷物类都可以参照类似方法来实现。而在工业领域PDM应用中，主要是通过AI引擎判断电机是不是有可能处在早期失效的情况中，可以有效的防患于未然，对整个系统运行的安全性和高可靠性能够提供帮助。其实，只要涉及到和MCU和嵌入式处理器的应用，就都有机会。

微信图片_20240703061038.png

从全球来讲，莱迪思的优势就在于低功耗和小尺寸。在小封装和低功耗方面，展示区展示了一个内窥镜的demo，里面有非常小的Image sensor，主要是做接口转换。从LVDS的接口出来以后，从MIPI的接口到接收板。展示的是早期的demo版，最后产品化会做成非常小的封装，随着内窥镜的探头进入人体内，所以芯片尺寸要求会非常高。另外，到体内以后还有功耗的问题，所以整个是用莱迪思平台的芯片提供低功耗的产品。谢征帆表示：“我们和竞争对手相比功耗基本上能降低一半甚至更低，这是从硬件的结构上来讲莱迪思是有这个优势。”

FPGA的生命力挑战及机会方向

FGPA虽然有“万能芯片”的美誉，但也存在其自身的局限和市场发展的取舍。比如PC更多还是借助CPU来提供AI功能，因为CPU有足够多的算力，可以在这上面做非常丰富的AI处理。而FPGA的先发优势是能够快速地进入市场，主要是可用来做第一代产品研发或者是高端机产品。一旦AI作为PC标配的话，基本上FPGA就会被ASIC或者SoC所替代。那么FPGA在PC的是否还有足够的市场机会？可突破的点有哪些？

针对EETOP小编的这些疑问，谢征帆分享说：“还会有一些专有市场或者细分市场。在细分市场，比如电竞行业中电竞的显示器，显示器和主机之间的通信，因为电竞PC在性能或某些功能上会有额外的需求，是目前的平台无法满足的，这时FPGA就大有用处了。”此外，FPGA+CPU的组合方式，也可以让PC在功耗和性能之间得到有效平衡。据介绍，莱迪思的FPGA产品主打的就是小尺寸低功耗，平时可以作为始终开启的芯片做预处理工作，当出现的确需要处理的事情时，才真正唤醒CPU，让其在后台做一些更加复杂的工作。

其实，在汽车领域，FPGA也面临着同样的问题。最早我们的芯片应用于汽车领域就是用在电机控制，主要是电机操作的控制功能。FPGA可以提供极高的安全性，而电机控制直接涉及到马达控制，其安全保障的要求是非常高的。但一旦汽车功能模块在某个领域成熟以后都会被ASIC所替代。不过，汽车领域依然是FPGA非常重要的竞技场。谢征帆表示：”我们也看到在汽车领域不断有新需求出现，FPGA会在不断涌现的创新领域发光发热。当前FPGA很多是应用在视频过程，在CMS或者Local Dimming，可能是因为在整个汽车里面这部分功能还没有完全固化下来，比如汽车里面的屏会越来越多，而且屏的位置、功能、方法都不一样。正是因为这些东西还在研究过程中，所以我们认为FPGA在这里面会有立足之地。”

在莱迪思看来，面向生成式AI有两个方向，其一是平台级管理的芯片。生成式AI基于服务器或者基于PC架构都会涉及到平台管理，而平台管理中每一个服务平台都有FPGA平台管理的CPU，都需要非常精确的时间管理，这些时间管理是没有办法用软的管理，这个是FPGA存在的价值所在。第二是关于安全性。生成式AI会有大量的数据汇集到平台上，对数据管理包括平台架构基础的功能管理，都对安全性提出了更高要求。传统上是用TPM方式，属于被动器件，它有个缺点，即需要CPU或者主处理器启动后再去调用它。在CPU开始工作和启动TPM之间，就存在一个时间差，黑客很容易利用这个空档进行攻击。莱迪思正在考虑一个方案，叫T-1，思路就是在平台级CPU或GPU或大颗FPGA工作之前，由T-1芯片先做验证。

现在FPGA的性能越来越高，提供的都是完整的经过验证的IP，对开发者来说，就像搭积木一样，且留给客户足够多的冗余空间。并且随着FPGA变成片上系统之后，硬件开发者再来开发FPGA，已经慢慢转成系统架构的设计师的角色转换。因此，从这个角度说，其实FPGA的开发难度又在增加，因为可能你开发的FPGA就是主CPU，开发者对系统的架构要有更多的理解。对于如何感知世界，这取决于多项技术的同时进步，包括嵌入式、算法、感知、视觉等，如何能更好的融合在一起，是当前需要考虑的。