美国正在推进的E级(百亿亿次级)计算项目建立了一个专注于机器学习技术的联合设计中心。
美国E级计算项目(Exascale Computing Project,ECP)建立了一个联合设计中心,将重点放在机器学习(ML)技术上。新中心名为ExaLearn,将针对科学和工程应用项目以及在ECP名下开展的其他工作开发百亿亿次级机器学习软件。具体而言,其目标是建立“可扩展且可持续的机器学习软件框架,让应用科学家和应用数学及计算机科学社区能够参与学习算法的联合设计。”
这项工作还将包括与美国能源部(DOE)的PathForward供应商合作,以帮助开发适用于各个硬件平台的软件,其中包括克雷(Cray)、IBM、英特尔、慧与科技(HPE)、英伟达和AMD正在开发的处理器及系统。
可扩展性是此类软件目前面临的最大限制之一。尽管最新的万亿次浮点运算GPU可以相当高效地运行机器学习代码,将应用程序扩展到为数不多的此类设备之外仍然是一项挑战。对于研究人员而言,将此软件用于百亿亿次级甚至千万亿次级运算在很大程度上是未知的领域。
尽管此机器学习软件的目标是未来的百亿亿次级系统,但值得注意的是,美国能源部的两台超级计算机Summit和Sierra已经可以在此种规模执行此类代码。Summit有能力提供超过300亿亿次浮点运算的深度学习性能,而Sierra可以提供约200亿亿次浮点运算的性能。两台计算机的性能都得