在企业上云与产业智能化的浪潮里,有前沿技术趋势上的“三叉戟”组合——业务与组织上云正在成为绝大多数企业的数字化发展选择;算力逐渐成为企业的战略性资源,而云端近乎无限的集群算力,使越来越多的行业与场景创新可以依赖云端高性能计算来完成;AI正在改变千行百业的生产方式,成为科研与产业探索的先驱力量,机器学习和深度学习也带来了人工智能专项算力需求的爆发。
而在很多人的印象中,HPC高性能计算、AI、云服务的“三叉戟”还处在各自独立、并行发展的阶段,尤其在云端实现高性能计算似乎还过于前卫。
但从产业效率的逻辑上看,在云端可以实现高质量、高效率的AI训练与部署的高性能计算,其实是产业集约化与社会低成本创新的大势所趋。只有把这三项技术完美融合到一起,才能铸成智能时代所需的数字化“三叉戟”。如何熔炼这把时代“三叉戟”,亚马逊云科技已经有了一些答案。
走向云端:高性能计算的产业趋势与挑战
根据Hyperion Research市场调研的数据来看,到2022年底将会有18.8%的HPC在云端运行,而这个数据在2021年是12.3%,虽然大多数HPC任务依旧依赖于超算中心和本地硬件,但在云端获取高性能计算,可以说是产业发展的大势所趋。在云端获取高性能计算,在目前阶段客户会担心遇到一些挑战。比如说:管理挑战,大规模计算集群难以创建和管理,是否能够有快捷的部署方式和高效便捷的管理手段;能效挑战,或者说是对云上高性能计算的性价比考虑,如何在云端发挥HPC的最大能效是很多用户担心的话题;安全挑战,云端的数据安全如何交付给用户一个放心的环境,是我们目前面临的一个安全挑战。
但从高性能计算行业发展趋势上看,这些问题都是可以在实践中被逐个解决的。从基础的计算逻辑上看,云端获取高性能计算更加经济实惠,并且用户可以弹性获取异构计算资源,真正实现计算与任务的适配。从单个节点性能上看,云端的计算资源性能更好;而在计算集群场景下,云端可以让用户获得线性增长的计算性能,避免算力浪费。
所以,在云端实现高性能计算并不是不可能,反而因为云端海量扩展的算力,不断增强的单节点的计算性能,方便高效的算力管理手段,以及云原生的系统及数据的安全保障,使得众多行业的高性能计算可以得以在云端运行。
技术融合与产业平衡:亚马逊云科技的高性能计算探索
在目前阶段,亚马逊云科技已经可以提供高度可定制的HPC计算平台,为用户带来多样化的异构计算资源以及定制化的计算实例。尤其值得注意的是,以软件生态丰富著称的亚马逊云科技在HPC领域同样提供了大量可用、低成本的软件,帮助用户解决管理与调度等领域的问题。
总体而言,亚马逊云科技的HPC探索呈现出两大核心差异:芯片、云、存储、软件、AI等领域的技术经验的高度融合,以及面向行业需求与用户痛点,改善了大量高度产业指向的软硬件生态。基于亚马逊云科技多样化的高性能计算探索,在云端获取集群化的澎湃算力已经成为可能。而这样一种可能带来的直接影响,就是为大规模的AI应用潮奠定基础。
智能晨曦:AI大航海带来的计算浪潮
随着预训练大模型与AI科学计算开始成为行业主流,AI训练与部署所需的算力开始激增,尤其是AI任务对高性能计算的依赖逐渐被放大。或许可以说,产业智能化的晨曦逐渐绽放,必须建立在HPC的坚实算力基座上。
面对机器学习、深度学习以及其他AI任务带来的算力需求,亚马逊云科技在云端不仅提供了搭载企业级GPU的计算资源,同时针对机器学习和深度学习的工作特点,自主研发了相对应的芯片,并且通过云服务的形式交付给客户使用。
面向智能时代必然高速涌起的HPC需求,亚马逊云科技通过产业知识与服务经验的积累,最终将AI、HPC、云计算,三项明星技术融合成了一把“三叉戟”。这把“三叉戟”还将持续进化,帮助用户在智能化浪潮中出海远航,在数字化田野中收获价值。