焱融全闪存储助力视源垂直大模型训练效率提升 6 倍

YAN_RONG_TECHNOLOGY

于 2024-08-01 19:42:10 发布

阅读量249

点赞数 5

文章标签：人工智能语言模型

本文链接：https://blog.csdn.net/YAN_RONG_TECHNOLOGY/article/details/140855666

版权

近日，焱融科技为视源中央研究院构建了先进的 AI 基础设施，解决了该研究院在垂直大型模型训练中遇到的存储性能限制，使得垂直大模型的训练效率提升了6倍。这一进步显著加快了该大模型在多场景中的部署速度，从而为用户提供了卓越的产品体验。

随着人工智能技术的飞速发展，AI 大模型作为其核心驱动力之一，正在从理论研究走向广泛应用。尤其是在垂直领域，AI 大模型凭借其强大的数据处理能力和深度学习算法，展现出了巨大的应用潜力。不同于通用型 AI 大模型追求全面覆盖，垂直 AI 大模型更注重深度挖掘和精准应用，为不同行业提供定制化的解决方案。

视源股份作为视听行业中的龙头上市公司，是最早一批拥抱 AI 及大模型的公司。早在 2014 年成立了中央研究院，专门进行基础及应用技术研究，主要研究方向包括视觉计算、信号处理、机器人控制与系统、自然语言处理和语音识别等人工智能技术，为视源股份的技术促增长战略提供强力支撑。面对通用大模型在细分领域的专业局限，视源选择自主研发垂直大模型之路。依托其在智能教学和会议领域的深厚数据和经验积累，成功推出希沃教学、MAXHUB 领效智会等垂直大模型，提升了其产品在市场上的竞争力。

垂直大模型落地遇阻存储性能瓶颈成训练效率关键挑战

在视源中央研究院深入推进行业垂直大模型训练发展的过程中，随着业务规模的不断扩大，数据量的增长以及对模型训练效率要求的提高，在没有使用焱融存储解决方案之前，采用的原有基于开源分布式存储 Ceph 和多套传统存储阵列的方案逐渐显现出局限性，已经不能满足业务需求，逐渐成为模型训练效率的瓶颈阻碍，对业务应用构成挑战。

跨域、跨存储架构数据管理复杂
原有跨域、跨存储架构的方案形成了多个相互独立的空间，导致数据孤岛问题。这不仅增加了数据管理的难度，还直接阻碍了数据的顺畅共享，需要频繁地手动迁移数据，降低了数据访问的便捷性，增加运营成本并影响数据处理效率。
存储性能瓶颈制约模型训练效率
随着计算集群规模的快速增长，原有存储系统的数据处理能力显现不足，无法满足大规模数据处理的需求，特别是在高并发、大吞吐量的场景下表现尤为明显。同时，在处理海量小文件时，Ceph 的元数据性能成为瓶颈，制约模型训练效率。
对模型训练场景的适配性不足
Ceph 通过 NFS 提供文件存储服务，而 NFS 主要是为串行访问设计，在 GPU 集群使用中存在负载不均、数据中转延迟高、文件锁和一致性等问题。

多维度性能优化焱融存储加速视源垂直大模型应用落地

在对大模型训练存储解决方案的探索中，视源中央研究院与焱融科技展开了深入的交流。焱融科技为视源中央研究院设计了一套全闪存存储解决方案。该方案针对大模型训练场景及各类传统深度学习模型场景进行多重性能优化，以满足客户在 AI 领域的高性能存储需求，充分释放了 GPU 的计算潜力。

此外，该方案还充分利用了现有的存储集群资源，并在管理层面实现了整合与统一。这种整合不仅简化了存储管理流程，还有效降低了存储成本，为客户带来了更高效、更经济的存储解决方案。通过这次合作，双方展现了在高性能 AI 存储领域的专业能力和对技术创新的共同追求。

多维度性能优化，AI 大模型训练的专属存储设计
通过采用焱融高性能全闪存储 F8000X 来构建存储集群。F8000X 采用全 NVMe SSD 设计，通过深度 I/O 模型优化设计，充分利用 NVMe 的多队列特性，实现更高的 IOPS 性能飞跃，集群提供 160GB/s 带宽以及近千万 IOPS 。在资源调度方面，其高效分配处理器核心资源的能力，不仅确保了网络层面高并发数据收发的顺畅无阻，还通过减少线程调度开销，让 NVMe SSD 的磁盘性能得以极致发挥。F8000X 以分布式并行文件系统 YRCloudFile 为核心，通过并行处理技术，能够同时从多个数据存储节点读取数据，进行并行处理和计算，提高数据处理速度和效率。同时，YRCloudFile 针对海量小文件进行深度优化，通过内存缓存的元数据管理、轻量级 open、lazy close 以及 batch commit 等技术优化，显著提升了在处理海量小文件时的性能表现，将性能提升了 6 倍以上。
统一架构，便捷数据管理
焱融高性能全闪存储 F8000X 存储集群替代原有多套相互独立的存储，支撑超百台 GPU 服务器，为训练集群不同网络类型下的 GPU 计算服务器提供统一命名空间，便于数据管理和业务使用。焱融 DataLoad 数据加载功能实现了与视源中央研究院原有对象存储的无缝对接与数据流通，焱融分布式文件存储 YRCloudFile 集群可灵活加载对象存储桶中的数据进行训练，同时支持训练数据增量或全量导出至对象存储，为客户构建了统一的数据湖。
降本增效，利旧与创新并行
针对视源中央研究院在数据处理中遇到的阶段性热点访问需求，焱融科技提供了 YRCloudFile 智能分层功能。这一功能与原有的存储无缝对接，使得原有存储资源得以充分利用。客户可按需自定义冷热数据策略，这一过程对业务完全透明，数据在冷热数据层之间的流动不会干扰到现有的业务。此外，YRCloudFile 还保持了数据的目录结构不变，向上提供标准的文件接口，这种灵活性和透明性让视源中央研究院能够更高效地管理其数据资源，同时降低存储成本，提升整体的数据处理效率。
多网络平面客户端监控，实现高效运维管理
焱融客户端监控功能提供精细化的监控数据指标，支持以太网络和 IB 网络下的客户端部署及监控，帮助客户全面透视存储系统运行状况及计算业务特点，为整体系统优化和高效运维提供支持。

效率就是竞争力提升大模型训练效率，构筑竞争新优势

效率就是竞争力，而它正在被 AI 大模型深刻重塑。AI 大模型已经成为提升企业生产效率与员工工作效能的新质生产力。为了确保这一生产力的持续高效运行，夯实大模型训练的效率是基础。

焱融科技全闪存储解决方案，帮助视源中央研究院跨越其原有存储架构的性能瓶颈，以高吞吐、高IOPS、低时延的卓越存储性能支撑 GPU 集群算力发挥，实现了大模型训练效率的质的飞跃。未来，在视源中央研究院向多模态大模型拓展的过程中，焱融科技将继续为其提供绿色低碳的高性能存储底座，助力其优化大模型的计算效率和能耗，赋能产品能力，为用户提供更好的使用体验。

YAN_RONG_TECHNOLOGY

关注

5
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
焱融全闪存储助力视源垂直大模型训练效率提升 6 倍

近日，焱融科技为视源中央研究院构建了先进的 AI 基础设施，解决了该研究院在垂直大型模型训练中遇到的存储性能限制，使得垂直大模型的训练效率提升了6倍。这一进步显著加快了该大模型在多场景中的部署速度，从而为用户提供了卓越的产品体验。
复制链接

扫一扫