【分享NVIDIA GTC干货】边缘AI:从模型开发到部署
引言
过期的几年间,人们开始对AI的关注点从单纯的模型训练转移到了模型在边缘端的推理和部署,因此,物联网、传感器、子系统接入的IoT边缘平台也引起了业界人们的重视。以下是Quantiphi的架构师对此类物联网系统产品的部分功能点的看法和理解
物联网发展蓝图
根据Gartner研究显示,通过企业的数字化转型和促进新商业模式的发展、改善企业运营效率和与消费者的连接,IoT将对经济产生巨大影响。到2025年IoT的市场份额将达到1.25千亿美元,而IoT将赋能的产业赛道里,最大的将会是医疗、制造、电力和城市基础设施
构建IoT解决方案的关键组成要素
- 定义问题,运用5W1H法则,对需要解决的问题进行解构
- 正确的硬件选型,根据实际场景(e.g. 算力要求、需要运行的模型大小、存储要求等)选择合适的硬件
- IoT设备的管理,算力设备上运行算法/策略的告警,以及设备本身资源的消耗情况,这些有价值的信息都需要进行及时的收集和汇总,便于架构师、开发人员进行架构改进和性能调优
- 网络连接,边缘AI工程化的过程中,需要充分考虑部署场景的网络带宽情况
- 报表分析,算法运行结果、设备资源消耗等等有价值的数据需要统一汇聚形成报表,便于开发人员自己以及客户查看和及时响应
- 产品化,除了算法功能本身的实现,还需要考虑安全、可靠性与鲁棒性、以及任务的批处理
硬件选型示例
以上是硬件选型的一个示例:
Jetson系列嵌入式硬件平台主要用于低能耗、小存储和模型部署资源消耗较低的场景,主要用于边缘端模型推理部署。主要的产品序列有:Nano、AGX、Orin等
EGX系列硬件平台主要用于高性能计算、监控运维、和对系统安全较高的场景,适用于数据密集型计算和大规模模型推理部署。主要的产品序列有:Ampere架构和Hopper架构系列产品
IoT设备的管理
大规模的计算设备部署在边缘端,需要一种方式对这些进行管理,以便整体系统的降本增效。集群管理的关键点主要表现在以下的6个方面:
- 设备接入:将边缘计算设备接入到系统架构中
- 设备配置:确保新接入的设备与当前系统兼容
- 远程控制:设备可发送自身算法/容器运行结果和硬件资源消耗情况到上层管理端
- OTA:可远程更新计算设备的软件和固件
- 安全补丁:对边缘计算设备的系统漏洞进行补丁更新
- 运维:持续对整体系统进行维护,以保证设备的峰值性能
NVIDIA Fleet Command介绍
当前设备集群管理工具所面临的挑战
- 设备预配置时间长:设备预配置时间较长导致了设备所需配置项下载时间长和设备操作的低效
- 分散式安全:导致了整体解决方案安全措施的分散和不充分
- 远程设备管理:远程设备管理过程中会存在设备软件/固件更新和运维的低效
- 与特定云服务耦合度太高:整体的物联网边缘架构如果与特定的云服务耦合度太高的话,将导致可能的价格上涨和架构敏捷度的降低
NVIDIA Fleet Command针对上述挑战,具备的特性
- 快速的设备预配置:通过内置了很多的设备配置项和接口实现设备的快速部署以及边缘计算基础平台设备资源的扩展
- 分层的安全策略
- 远程的安全监控和问题排查
- 与云服务商的兼容
网络连接
当前物联网解决方案网络连接方面的一些痛点
- 吞吐量低
- 节点连接密度低
- 延时高
5G解决方案的特性
- 高吞吐量:5G网络具备的大带宽使得大量计算设备上传告警和状态信息时的数据传输速率更快
- 节点连接密度高:单位面积下接入的设备更多,通信和网络管理效率更高
- 低延时:最小化实时计算应用信息回传的延时
报表分析
报表分析的目的和益处
- 快速设备监控
- 促进可行动的业务决策
- 助力趋势分析和其他研究
报表分析的工作流
- IoT设备和传感器的网络接入
- 接入pipeline的搭建
- 通过pipeline接入的数据实时处理、设备地理数据的读取
- 处理结果和地理信息通过消息通道进行事件的处理
- 事件处理结果接入GIS平台
- 生成前端报表
产品化
IoT解决方案产品化过程中需要注意的要点:
- 安全性:设备认证和授权、传输数据的加密、安全化的数据处理日志
- 可靠性:数据可用性和系统的恢复能力、多层IoT网络的防护、模块化系统设计
- 补丁管理:设备和系统的更新改进
Quantiphi的边缘AI落地案例
以上是主讲人所在公司的边缘AI解决方案落地案例,涉及到安防、电力能源和园区运营三个方面
IoT解决方案开发的生命周期
- 问题定义和开发策略roadmap制定:行业线人员、CTO、组织高层等相关方收集技术功能/非技术功能的要求,e.g. 需要捕获到的视觉异常画面、解决方案的特性等等;耗时大约24-48h。
- 确定解决方案的整体架构&硬件选型和规模:架构师、产品经理、开发组织等人员确定长期的IoT解决方案部署的技术功能和硬件选型及规模;耗时大约2周。
- 构建最小有价值产品:技术架构师、PO、项目经理和工程团队快速开发一个针对有效计算和内存使用率最优的产品原型;耗时大约4周。
- 部署和扩展:技术架构师、工程团队、IT团队、基础架构团队和QA团队通过解决实际应用场景中的特定问题e.g.安全、集群管理、设备协同等方面来将概念验证扩展成为产品级解决方案;耗时大约6周。
- 持续监控和运维支持:PO、项目经理、IT团队和基础架构团队根据系统现场的运行情况进行补丁管理和监控,需持续进行
Quantiphi IoT Platform平台介绍
具体功能点就不细说了,重点提一下他们解决方案的几个卖点:
- 无代码开发环境
- 可即用的AI模型(应该有自己的Model Zoo)
- 可快速使用的基础架构工具包(目测应该是一些IoT场景下常用的SDK)
- 生产数据连接器
- 一键设备配置
Quantiphi自我安利环节
总结
这篇文章分享了Quantiphi架构师对IoT整体解决方案开发的心得和方法论,外加给自己的公司打call;没有像其他session一样就CUDA或者TensorRT等具体技术栈做讲解,个人感觉适合有一定客户交付经验的从业者学习参考。