在数据爆发式增长的今天,越来越多的组织开始构建大数据与人工智能 (AI) 平台,以期在强化海量数据处理能力的同时,赋能创新技术应用,推动数字化转型战略实施。
然而在构建大数据与 AI 平台的同时,复杂的算力优化、软硬件融合、资源管理与运维等挑战随之而来。组织需寻找创新的大数据与 AI 基础设施构建方案,以更加高效、精确的数据洞察,发挥数字化技术创新的巨大潜力。
大数据与 AI 应用
给基础设施层面带来挑战
当前,利用大数据技术与 AI 技术激活数据要素潜能成为产业数字化转型的方向。在传统 IT 基础设施建设中,大数据与 AI 平台往往部署在不同的服务器集群中,AI 平台提供 AI 模型训练资源,大数据平台提供数据存储、数据管理、数据分析资源,这种建设方式在架构上较为清晰,有利于分阶段的部署推进。
但随着组织数字化转型战略的深入,其他问题接踵而来。如何实现两个平台基础资源的统一管理与数据共享?如何提升交付效率,实现便捷化产品实施?如何控制基础设施总体拥有成本 (TCO)?如何实现海量数据的自动化存储管理?
要想化解上述难题,构建 AI 与大数据的深度融合平台,基础设施层面面临重大挑战。
基于英特尔® 架构的
浪潮大数据 • 智算一体机解决方案
为帮助组织有效利用大数据与 AI 进行数字化转型,浪潮集团(以下简称“浪潮”)推出了基于英特尔® 架构的大数据 • 智算一体机解决方案。
浪潮新一代大数据 • 智算一体机方案基于浪潮大数据平台 Insight,融合大数据与人工智能组件,旨在为用户建立大数据分析与人工智能模型训练推理的深度融合平台,实现智算一体化部署交付,降低用户大数据和人工智能平台的TCO。
英特尔提供高性能的基础资源支持
浪潮新一代大数据 • 智算一体机推荐使用第三代英特尔® 至强® 可扩展处理器、第二代英特尔® 傲腾™ 持久内存、英特尔® 傲腾™ 固态盘、英特尔® 以太网等产品,以提供高性能、高扩展的基础资源支持。
■ 第三代英特尔® 至强® 可扩展处理器:已针对云、企业、高性能计算、网络、安全和物联网工作负载进行优化,可提供 8-40 个强大内核以及广泛的频率、功能和功率选择;同时集成了工作负载加速功能,包括英特尔® 深度学习加速技术、英特尔® 高级矢量扩展 512 技术和英特尔® SpeedSelect 技术。第三代英特尔® 至强® 可扩展处理器基于平衡、高效的架构,该架构可提升内核性能、内存和 I/O 带宽,为处理从数据中心到边缘的各种工作负载提速。
■ 第二代英特尔® 傲腾™ 持久内存:英特尔® 傲腾™ 持久内存 200 系列是英特尔新一代既支持安全功能,有可靠、持久的内存模组。它提供大容量和原生持久性,有助于从更大的数据集中攫取更多价值,同时,由于能够在更靠近 CPU 的地方快速访问更多数据,因此也提高了敏捷性。与第一代产品相比,第二代英特尔傲腾持久内存平均增加了 32% 的内存带宽1。
■ 英特尔® 以太网适配器 E810-DA2:具备 100/25GbE 性能,支持单个或双端口连接,在 PCIe 4.0 x16 插槽中提供了出色的性能,并支持应用程序设备队列 (ADQ)、动态设备个性化 (DDP)、RDMA iWARP 和RoCEv2 等各种高级功能,能够有效满足各种工作负载对于带宽和时延的严苛要求。
英特尔与浪潮面向大数据与 AI 负载
实现广泛优化
在浪潮云海 Insight 大数据平台以及英特尔新一代软硬件产品与技术的基础上,浪潮与英特尔围绕智能存储管理、端到端智算统一管道的构建、大规模数据处理性能优化等方面进行了深度合作。
■ 通过英特尔® SSM 释放智能存储管理潜力
浪潮新一代大数据 • 智算一体机搭载英特尔® 智能存储管理组件(Smart Storage Management,SSM),为用户提供存储优化和数据管理方案。
SSM 是英特尔在 Apache Hadoop 生态系统中发起和维护的存储管理的系统级方案。SSM 处于上层应用(数据引擎,流式计算等)与存储系统(HDFS,AWS S3等)的中间层,上层应用通过 SSM 与存储系统实现数据接入。
它提供了对异构存储硬件的支持,例如 HDFS 可以通过 SSM 充分利用英特尔® 傲腾™ 固态盘和英特尔® 傲腾™ 持久内存,实现动态优化数据存储。此外,SSM 还提供了对远端存储与 HDFS 本地备份统一管理。
SSM 在大数据生态中的定位
在数据管理方面,SSM 与浪潮云海 Insight 大数据平台的无缝结合对平台存储而言如虎添翼,面向分布式存储的智能管理不仅能够免去外界触发完成数据管理,进一步细化管理粒度,而且可实现一次规则定制即可完成全数据生命周期管理的高效解决方案。同时,浪潮云海 Insight 大数据平台也为 SSM 提供了更大的舞台,支持根据客户需求优化 SSM 服务管理运维能力,提升 SSM 的易用性与安全性,从而更好地释放智能存储管理的潜力。
■ 集成 BigDL 构建端到端智算统一管道
为简化端到端的大数据分析和人工智能融合开发和部署,浪潮新一代大数据 • 智算一体机在 Insight 中集成了智慧计算组件 BigDL (Analytics Zoo)。
有了 BigDL (Analytics Zoo) 的加持,大数据预处理、模型训练、模型推理能够与现有的大数据处理工作流整合在一起,构建端到端的大数据分析和深度学习应用流水线,进而打造成统一的大数据分析和人工智慧平台,并通过使用 Apache Spark 中的各种框架模型简化和加速人工智能应用系统的开发。
端到端的大数据分析和人工智能融合开发架构
■ 集成英特尔® OAP 实现大规模数据处理性能优化
为改善 Spark 高速缓存、shuffle、执行和机器学习性能,浪潮新一代大数据 • 智算一体机在 Insight 中集成了英特尔® 优化分析包(Optimized Analytics Package,OAP)。
OAP 是英特尔和社区开发的开源项目,包括以下组件:OAP 数据源高速缓存、native SQL 引擎、Arrow 数据源、OAP MLlib、RDD 高速缓存、RPMem Shuffle 扩展和远程 Shuffle。它旨在借助英特尔® 处理器、内存和存储以及网络技术,通过数据源缓存、SQL 索引、Native SQL 引擎、MLlib 优化等创新软件功能提高 Spark 性能,以解决 Spark 核心和相关组件面临的计算与 I/O 挑战。
英特尔® 优化分析包架构
浪潮云海 Insight 大数据平台还集成了基于英特尔® 傲腾™ 持久内存深度优化的 Spark。与 DRAM 内存相比,英特尔® 傲腾™ 持久内存在每容量成本方面具有突出优势,这帮助浪潮显著提升了 Insight 大数据平台的经济性。同时,经过优化后的 Spark 对比开源版本有效提升了性能。测试数据显示,在大数据场景的 Spark 离线计算中,IO 密集型、内存密集型任务性能相较传统方案提升 2-5 倍2。
此外,Insight大数据平台还对MPP、HBase、Redis、ElasticSearch、Nifi、OpenTSD 等组件进行了深度优化,使其性能在英特尔® 傲腾™ 持久内存、英特尔® 固态盘上得到大幅提升,同时可帮助用户提升业务系统性能和用户体验。例如在 HBase 大数据量高并发查询场景下,英特尔® 傲腾™ 持久内存全缓存相比内存部分缓存,能够将查询吞吐量提升 100% 以上3。
助推 AI 与大数据深度融合
助力数字化转型
基于英特尔® 架构的浪潮大数据 • 智算一体机解决方案帮助用户重构了大数据、AI 系统和传统 IT 系统集成部署架构,提供了一套高性能、高可靠、高扩展、易部署的大数据 AI 融合一体化计算平台,降低了 IT 基础设施的总体拥有成本 (TCO)。
未来,双方将进一步在面向未来智算基础设施的异构参考架构方面进行广泛合作,构建优化型的端到端全栈大数据与 AI 解决方案,帮助用户更快速处理大规模的数据,加速大数据、AI 的开发与应用。