戴尔：开启AI 算力时代，为AI产业化提速-CSDN博客

本文链接：https://blog.csdn.net/Tf3fC4gsZrGUQX94Oo7/article/details/128663551

点击蓝字，关注我们

1956年，美国达特茅斯学院举行了历史上第一次人工智能研讨会，会上首次提出了"人工智能（AI）"这个概念。在此后的67年里，AI经历过短暂的繁荣期，也经历过低谷期，直到最近10年，才进入了真正的爆发期。而这10年也是AI产业化发展最快的10年，AI在很多行业中都实现了落地， AI计算在计算力需求中的比重也在快速提升。根据IDC的研究报告：2021年中国AI计算服务器市场规模已经达到350.3亿元人民币。

事实上，与传统数据中心计算相比，AI计算在计算芯片选型、指令集、设备功耗及散热、资源管理与调配等方面都有着自身的特点。为了帮助大家更了解AI计算，更好的应用AI，1月11日，戴尔科技集团举办了"开启AI 算力时代，探寻行业创新应用"主题网络研讨会，戴尔科技集团和南京飞灵智能科技有限公司的多位专家带来了多元化的AI硬件与软件平台解决方案，以及AI在制造行业和教育行业场景中落地的应用探索和实践。

多元化AI计算平台，助力AI工程化落地

戴尔科技集团AI企业技术架构师吴跃

戴尔科技集团AI企业技术架构师吴跃在主题演讲中列举了AI与不同行业结合衍生出的多个应用场景：

在制造行业，戴尔科技集团帮助光伏企业实现了基于AI的光伏组件缺陷检测识别，算法识别精度>99.5%，检测速度< 2秒，节省了2/3的人力投入。

在零售行业，通过部署戴尔AI边缘计算解决方案，AI算法可以对结算商品进行自动识别和分类，并与顾客扫描的商品二维码进行比对，识别商品SKU>100万，商品识别错误率<1%，为商超企业减少了由于商品漏扫、错扫造成的损失。

在体育行业，戴尔科技集团与中国赛艇协会、皮划艇协会合作，共同成立了大数据与人工智能联合实验室。通过结合AI边缘计算、流数据处理的解决方案，用实时视频捕捉运动员的训练动作，结合AI深度学习与生物理学模型，对运动员动作的角度、力度和稳定性进行实时的分析判断，从而实现更好的训练效果。

戴尔科技集团内部也在积极应用AI技术，让产品更加智能化，同时改善生产与运营，并通过AI联合实验室，进行AI能力输出。

吴跃指出，这一轮AI产业化热潮的核心技术是深度学习，而深度学习、强化学习AI技术，在模型训练与应用过程中对于计算力有很高的要求。AI计算力需要更加复杂的AI模型、更大规模的AI训练数据集、更加复杂的功能实现，在AI推理计算场景中对吞吐和延迟也有要求。

伴随着AI产业化，用户对于AI基础架构的需求也更加精细化、集群化和多样化。与几年前简单的堆砌GPU服务器相比，用户需要一套端到端设计与优化的AI数据中心解决方案。这要求服务商设计面向未来的AI基础架构，更加精细化的优化AI在训练和线上推理使用的计算精度、计算芯片的资源切割与调配方案，以最大化发挥计算芯片的实际效能，并通过构建跨越物理主机、横向扩展的AI计算集群、GPU分布式训练来应对大规模预训练模型的算力要求，同时也要积极探索更高效率与性价比的AI加速技术，以及面向更加多元化的AI应用场景。

吴跃表示，戴尔科技集团可以提供完整的AI基础架构、AI平台就绪解决方案和AI行业应用。AI基础架构包括高性能AI训练服务器、AI推理服务器、AI边缘计算、高性能AI存储系统PowerScale、DPS数据保护解决方案和数据中心网络。AI平台就绪解决方案则包括基于CPU、IPU、GPU的AI就绪解决方案，GPU分布式训练自动化实现，Graphcore IPU AI专用芯片，NVAIE，GPU虚拟化，AIaaS平台和OMNIA开源社区。

面向AI计算，特别是AI计算领域中广泛使用的GPU计算，Dell PowerEdge 14G和15G服务器家族提供了多款针对GPU计算特性而设计的服务器，这些服务器采用了"T形"主板、多矢量散热2.0技术、电源增强设计等等，都是为了确保GPU的最佳运行状态。据透露，在戴尔科技集团今年将发布的Dell PowerEdge 16G服务器家族中，也会有更多GPU加速服务器。

为了在AI计算中更有效的发挥GPU的计算效率，戴尔科技集团在过去几年中进行了持续的探索和研究。在2022年6月发布的MLPerf Training v2.0基准测试中，戴尔科技集团在图像分类、目标检测、自然语言处理3个AI赛道中，基于Dell PowerEdge服务器，分别提交了128个GPU分布式训练基准测试，同年还发布了《戴尔科技AI GPU分布式训练技术白皮书》。在GPU池化领域，为国内用户提供了在虚拟化与云原生平台上实现GPU资源池化与按需调配的企业级AI资源平台解决方案。

AI平台就绪解决方案则得益于戴尔科技集团与英特尔AI团队的合作，如在英特尔软件平台结合戴尔基础设施解决方案，面向TensorFlow开源社区的机器学习平台Kubeflow设计的AI解决方案白皮书；针对机器学习解决方案提供商H2O.AI提供机器学习软件套件下载包，进行计算平台的部署验证，效能优化；在基于CPU的AI加速解决方案中，戴尔也用到了英特尔支持的AVX-512技术以及上层的软件优化库。如在某大型造船企业的AI分析平台项目中，采用Intel Xeon 6230R处理器的Dell PowerEdge计算平台进行AI图像推理，通过调优和配置优化，实现了与GPU相当的AI吞吐性能和更好的性价比。

吴跃指出，当前有个明显的趋势，越来越多的AI计算，特别是推理计算出现在边缘侧，但边缘侧的IT设备部署环境千差万别，对IT设备的尺寸、运行环境也会有特殊要求。戴尔科技集团为此推出了多款边缘计算服务器，最新款PowerEdge XR4000边缘计算服务器是目前戴尔机箱深度最短的服务器，非常适合在空间有限的环境下部署，对极端的温度、防尘、防撞击有着更强的适应力，可以运行在零下五度到零上55度的工作环境中，并且通过了电信、海事等行业的专业认证。

此外，戴尔科技集团还在AI专用加速芯片领域进行了战略投资，其投资的Graphcore就是专注于AI加速芯片硬件的创新企业。Graphcore的产品IPU芯片现已成为戴尔AI计算解决方案的一部分，在某些AI应用场景下，它甚至能展现出比通用GPU更好的AI计算性能。

除了计算外，存储I/O也是AI基础架构的重要关注点。如果存储容量和I/O性能跟不上，存储就会成为系统的短板。戴尔提供的PowerScale存储解决方案为AI计算集群提供了高性能横向扩展的非结构化数据存储池解决方案，它采用了Scale out存储架构，随着存储节点数量增加，容量和性能可以突破线性增长。

吴跃表示，算法、数据和算力是AI应用落地的三大要素。戴尔科技集团希望通过构建高效灵动的AI计算平台，为企业提供高性能、可扩展的存储设施与数据保护解决方案，加速AI工程化落地。

Dell边缘AI计算赋能工业智能制造

戴尔科技集团首席工程师、产品技术专家张宇霆

戴尔科技集团首席工程师、产品技术专家张宇霆介绍，基于戴尔COE先进的AI技术，以及戴尔工厂利用AI技术辅助检测产品表面缺陷的智能制造项目，戴尔科技集团在智能制造领域有三个愿景：一是基于AI技术实现智能和高效的运营，赋能戴尔工厂；二是利用戴尔"边缘-核心"技术提供AOI检测和实时的业务洞察力；三是从生产线到工厂再到整个企业，连接所有数据孤岛，构建智能的"数据湖"以支持智能决策。最终使戴尔工厂成为行业中最先使用边缘AI计算、AI智能制造等技术的标杆。

据悉，在戴尔工厂中，戴尔AI检测方案结合了业界的成熟实践，引入了戴尔边缘核心软件架构，提供了具有竞争优势的AI缺陷检测功能，以及基于大规模实时数据的AI数据分析结果，不仅提高了整体的产品质量，也大大提高了产品质检的效率。

张宇霆指出，与传统检测方案相比，戴尔AI检测方案具有三大优势：

第一是灵活性。缺陷检测业务具有明显的迭代特性，随着产品迭代，需要检测的内容也会发生变化。目前很多企业使用传统检测方案时，还需要人工介入，调整各种参数和阈值。而戴尔AI检测方案具有全自动工作流的特点，当工厂有新检测需求时，通过核心端的自动模型训练部署，就可以满足新的检测需求。

第二是鲁棒性。该方案不依赖于具体的硬件设备，只要硬件供应商的多项指标能够达标，算法就可以无缝迁移到更多产品线上和更多环境里，无需人为调试就可以达到之前的检测进度。

第三是数据驱动迭代。由核心端负责监控边缘端的检测性能，自动标记弱样本，同时完成模型迭代，推送给边缘端，实现良性闭环。它提高准了确性，降低了误判率，也保证了整体检测的稳定性和可靠性。

与该方案相辅相成的是戴尔边缘到核心解决方案，它利用戴尔PowerEdge/VxRail+SDP产品对所有产线进行实时监控和警报。如戴尔成都工厂的核心端，连接了成都工厂和厦门工厂产线上的多个边缘端，不仅保证了性能，同时兼顾了管理的复杂度，也是数字化转型的利器。

面向高校的AI教学、实训解决方案

虽然当前AI产业发展迅猛，但是仍然存在AI人才供给不足、人才供需比严重不平衡的问题。

南京飞灵智能科技有限公司CEO蔡飞

南京飞灵智能科技有限公司CEO蔡飞指出，自2018年教育部设立人工智能专业至今，新增人工智能专业的本科和高职院校已经接近2000所。但90%以上学校都面临着很多共性问题，如：人工智能人才培养的目标是什么？应该开设什么课程？用什么教材？做什么样的实训？重点关注什么行业、什么场景？

针对这样的情况，南京飞灵智能科技有限公司（以下简称"飞灵"）携手南京大学打造了"一站式"人工智能教学+实训+科研创新平台，确保教学落地，让老师可以集中精力于教学，同时鼓励学生实践，提升就业竞争力。

该平台可提供11门课程、150+课件、130+实验、3种实验模式、10+云边协同应用、50+行业应用场景、80+算法讲解和10大行业数据集。

蔡飞指出，该平台的核心功能就是实现了GPU虚拟化。如果每个学生都给一个AI加速卡，成本会非常高，但GPU虚拟化后，可以用一个卡支撑4个人同时做实验，大大降低了硬件投入，提升了资源使用率。

而在教学管理过程中，管理员需要对后台资源和组件状态进行监控和管理，并统计资源和任务。以30个人的班级为例，需要一台管理节点和两台计算节点。飞灵采用了戴尔科技集团经典的硬件组合dell R640搭配dell R740，并配备了AI加速卡。

蔡飞总结到，该平台具有五大优势，不仅有覆盖全面的教学课件、实验及案例，还能兼顾老师的科研需求，其真实的行业案例和商业开发环境可以帮助学生理解AI的价值、提升就业竞争力，GPU虚拟化则大大降低了硬件投入，此外，该平台还能支持可视化建模，降低AI落地门槛，提升学生的学习兴趣。

据透露，目前该平台还在南京师范大学、河海大学、国防科技大学、江苏科技大学、新疆农业大学等院校中成功落地，采用的也是飞灵的软件和戴尔的设备。

END

如果您想了解更多详情
欢迎扫码观看本次会议