前不久,中国科学技术大学计算机科学技术系与中国科学院计算技术研究所紧密合作,采用代表国内当前高性能通用处理器设计最高水平的64位龙芯2F芯片,研制国产万亿次高性能计算机成功问世的消息被释出。下面是这台KD-50-I的一些技术细节,希望通过相关细节的公布能廓清一些莫名其妙的迷雾,让大家对KD-50-I有一些具体的了解。
随着研究型一流大学的建设工作的不断深入,建设高水平的公用科学计算平台是中国科大“985工程”建设的一个重要方面。在教育部“985工程”建设项目的大力支持下,中国科学技术大学计算机科学技术系与中国科学院计算技术研究所紧密合作,采用代表国内当前高性能通用处理器设计最高水平的64位龙芯 2F芯片,研制国产万亿次高性能计算机,经过几个月的紧张工作和技术攻关,终于在2007年12月26日于中国科学技术大学通过国家鉴定。
基于龙芯2号国产万亿次高性能计算机KD-50-I采用单一机柜,集成了336颗龙芯2F处理器,理论峰值计算能力达到1.008万亿次,在板上机群、高密度计算结点、轻量操作系统等关键技术上取得突破,具有低占地、低功耗、低成本、高计算密度等特点。
KD-50-I万亿次机采用Debian/GNU Linux无盘系统,支持C/C++和Fortran77/90/95程序及MPI并行,利用TORQUE和Maui进行作业调度。
KD-50-I万亿次机适合于高性能计算教学和科研方面的应用,培养创新型人才,可直接推广应用在数学、物理、化学、地学和空间科学、生命科学、材料科学、力学、火灾科学、量子和信息科学、军事科学等领域,以及国民经济建设的诸多方面,如水利、气象、石油、地震、医学、农业、航空航天、环境资源、国防建设等,欢迎大家试用及提出批评建议。
KD-50-I万亿次机的研制成功,是为中国科大50周年校庆献上的一份厚礼,也是“全院办校、所系结合”的一次成功实践。KD-50-I万亿次机的研制成功,对个人高性能计算机理念进行了首次尝试;确立了国产高性能通用处理器在高端并行机应用中的核心地位;对我国未来研制国产千万亿次计算机及提高自主创新性能力提供了示范作用;有助于推动我国民族高性能计算机产业的发展。
KD-50-I万亿次机的整体结构如图1所示。KD-50-I万亿次机包含28个计算节点和一台主控服务器。KD-50-I万亿次机整个系统以1U 的计算节点作为系统的基本部件,在一个节点内放置12个龙芯2F计算单元和四个4端口千兆以太网交换芯片。每个计算单元(图2)包含1颗龙芯2F处理器, 1 GB内存和一个内置千兆以太网芯片;每三个计算单元共用一个千兆交换芯片,4个交换芯片共用一套电源和散热系统。每个计算节点通过4个千兆网络接口连接机柜交换机,机柜交换机之间采用专用的堆叠接口实现高带宽连接。主控服务器为系统提供磁盘存储、系统引导、用户登录、任务调度等功能。
图1 KD-50-I万亿次计算机系统整体结构
图2 KD-50-I万亿次计算机系统节点结构 KD-50-I万亿次机硬件主要技术指标和参数
- 整机指标
- 低功耗
- 单计算单元功耗小于20 W
- 单节点节点功耗小于200 W
- 整机功耗小于6 KW
- 低占地面积
- 42 U单机柜的万亿次计算系统,占地0.51平方米,高度1.74米
- 低成本
- 整机成本不超过80万
- 高计算性能
- 峰值性能达1 TFlops以上
- 高计算/功耗比
- 186 MFlops/W
- 高计算密度
- 12个处理单元组成一个1 U节点,每U计算能力36 GFlops
- 全交换互连
- 所有处理单元之间均采用千兆交换以太网互连
- 整机技术参数
- 计算单元:336个主频750 MHz的龙芯2F,总的峰值计算速度1.008 TFlops
- 服务节点:2个Opteron双核处理器,主频2.2 GHz
- 内存容量:每计算单元内存1 GB,服务节点内存8 GB,共344 GB
- 磁盘容量:876 GB
- 系统互联网络:千兆以太网
- 龙芯2F处理器技术参数
- 四发射超标量RISC结构,兼容MIPS III指令集,主频750 MHz,3 GFlops/s
- 2个定点部件、2个浮点部件和1个访存部件,支持寄存器重命名、动态调度、转移猜测等乱序执行技术
- 支持全流水浮点乘加指令和SIMD短向量指令,以及40位虚地址和物理地址访问
- 片内集成512K二级缓存、DDR2内存控制器和PCI-X/PCI控制器
- 90 nm工艺,芯片面积42 mm2,功耗小于7瓦 KD-50-I万亿次机软件主要构成
- 操作系统:Debian/GNU Linux 4.0
- 编译环境
- GCC4.2
- MPICH2
- 数值函数库
- BLAS
- LAPACK
- ScaLAPACK
- FFTW
- 资源管理:TORQUE
- 作业调度:Maui
- 运行监控:Ganglia
KD-50-I 官方主页:
http://www.kd50.ustc.edu.cn/
相关照片
整机正面
整机正面
整机背面
计算节点:含12个计算单元,高度为1U
计算单元:含1颗龙芯2F芯片和1G内存