5月11日,昇思AI框架及大模型技术论坛,在北京圆满举办。会上,中科视语(北京)科技有限公司副总经理赵旭围绕“视语坤川大模型研发及行业应用案例”发表主题演讲。
视语坤川大模型:
行业知识与小模型经验的完美融合
中科视语是中科院自动化所孵化并直接持股的科技成果转化公司,拥有20年的行业专业知识积累,以及成熟的小模型开发经验。结合这些宝贵的经验,进一步融合大模型技术,基于昇腾AI硬件与昇思MindSpore AI框架,打造出了面向行业的大模型——视语坤川。这一模型不仅具备强大的学习能力,还能结合行业特有的历史数据、经验知识和业务流程,为行业带来前所未有的突破。
视语坤川大模型具有以下两个特点:
-
双轮驱动模型生产及工程化:基于视语坤川大模型可以实现整个交付的快速提升,一方面其拥有大模型的零样本能力,另一方面该模型基于昇思MindSpore构建整个交付的流水线,有效提升交付效率。
-
双翼带动产品竞争力跃升:其具有模型设计和模型加速的技术,有效去平衡算法的准确率和功耗,实现算法产品竞争力提升。
视语坤川大模型:两大技术突破
视语坤川感知能力FastSAM:SAM视觉大模型的50倍加速
FastSAM是视语坤川大模型的核心感知技术,它凭借先进的知识引导架构学习方法,实现了对物理场景内目标的全粒度、高效率定位。这一技术不仅提升了定位的精准度,还显著提高了数据处理速度,是SAM视觉大模型的50倍加速,让实时感知成为可能。
视语坤川压缩能力FLAP(波动性度量):对LLM进行裁剪50%,加速66%
FLAP是视语坤川大模型的核心压缩技术,通过先进算法和技术手段,在保持模型精度的同时,实现高效压缩与加速。它显著减少模型计算量和存储需求,降低部署成本,提高运行效率,实现了语言模型裁减50%,加速66%的效果。FLAP使视语坤川大模型在资源受限环境中更加轻便、高效,满足实际应用需求。
视语坤川大模型:交通场景下的能力提升
结合智慧交通场景,可以看到各项能力结合的突破,如下图左边是基础能力,右边是基于大模型打造的应用。
-
车辆分类能力提升:过去在识别一辆车,要选取车辆多个属性,才能对车辆进行分类;同时因离散化的标签,多种颜色车辆会出现识别故障问题,对交通工作的开展非常受限。基于视语坤川大模型可实现改进,形成一个自然化的语言描述,可以直接对车辆进行连续的描述,如“有一些车是黑色的,但是有点反光”的口语化描述,有效的提升对车辆的分类能力。
-
图像检索能力提升:过去车辆检索是基于离散的标签检索车,如车辆发生了改装或者对外观进行了一些粘贴,则还会出现搜索故障。基于视语坤川大模型可实现局部检索,如车辆进行改装,但车窗里某些关键特征没有变动,则可以把关键特征进行提取。甚至能通过一段话描述车辆特征,通过文字检索图片的形式进行检索,为交通工作的开展提供巨大帮助。
-
交互模式能力升级:改变了过去大屏交互模式,将各种各样的统一数据都放在大屏里,受限于大屏的表达能力,导致使用的局限性。提供人机交互的形式,面向用户关注什么信息,问什么问题,做到从固定式UI变成语言式UI。
昇思MindSpore助推视语坤川大模型研发
昇思MindSpore在视语坤川大模型的研发和应用中起到了关键助推作用。昇思的训练数据处理引擎实现了单节点数据缓存技术,解决重复加载、处理数据的问题,降低数据处理开销,提升端到端训练效率,大大加速了视语坤川大量的视觉模态数据的加载和预处理过程,训练速度提升了2.3倍。面向行业客户的应用场景中CPU、GPU、NPU等多样的部署硬件环境,昇思的多场景统一部署功能实现了在不同芯片上提供统一的编程使用接口,并直接生成在多种硬件上加载执行的离线模型,避免了重复开发,这大大加速了模型的交付上线效率。
中科视语携手昇思MindSpore共同打造的视语坤川大模型,不仅彰显了中科视语在行业大模型领域的深厚实力,也凸显了昇思MindSpore AI框架在技术实现中的核心作用。昇思MindSpore凭借强大的技术能力和卓越的灵活性,为视语坤川大模型提供了坚实的支撑,使得这一模型在多个应用场景中展现出卓越的性能和价值。未来,昇思MindSpore将持续在人工智能领域发挥作用,助力中科视语乃至整个行业探索更广阔的边界,推动大模型的不断创新和突破,为人类带来更智能、更便捷的生活体验。