今年,HPC领域中GPU计算的增长继续有增无减,并取得了诸多里程碑式的全新成果。 很难相信,英伟达™(NVIDIA®)Tesla的发展史只有区区三年半。
去年年末,我们探讨了自己在英伟达™(NVIDIA®)Tesla上似乎已经达到了“引爆点”,引爆点是变革势头不可阻挡的一种发展水平。 如果必须用两个词来对今年进行总结的话,我想说,英伟达™(NVIDIA®)Tesla感觉好像已达到“逃逸速度”。逃逸速度是摆脱引力场所需的速度。就英伟达™(NVIDIA®)Tesla来说,逃逸速度是发展势头的一个特定阶段,在这个阶段中,客户谈论的已经不再是“是否”部署GPU,而是“何时”部署的问题。
我们举办的GPU技术大会以及今年的国际超级计算(SC’10)大会真正巩固了我们的发展地位,让我们在这一令人难以置信的年度中取得了圆满成功。
下面是我们今年的十大精彩瞬间:
1. “数”说英伟达™(NVIDIA®)CUDA 在公司内部,我们有许多衡量标准来跟踪英伟达™(NVIDIA®)CUDA的发展进程。然而,就开发商的采用情况、教育和业内发展势头来说,我们今年实现了全面的蓬勃发展。
2009
2010
增长百分比
GPU技术大会(GTC)与会者人数
1423
2166
52% ( 个人平均 = ~20%)
开设英伟达™(NVIDIA®)CUDA课程的大学
270
350
30%
YouTube上的英伟达™(NVIDIA®)CUDA相关视频
800
1250
56%
CUDA Zone收到的提案数量
670
1235
85%
英伟达™(NVIDIA®)CUDA软件开发包累计下载次数
293,000
668,000
127%
在谷歌学术搜索上,英伟达™(NVIDIA®)CUDA相关的引文
2700
7000+
160%
GTC大会收到的演讲提案
67
334
398%
2. 计算实验室 - 一月份,我们针对生物信息学和计算化学领域发布了一项全新的计划,命名为Tesla Bio Workbench。 该计划将20多段杰出的计算研究程序代码结合在一起,例如AMBER、VMD以及LAMMPS等等,让依赖这些程序代码的科学家能够将标准PC变成“计算实验室”。这些“计算实验室”能够通过利用英伟达™(NVIDIA®)Tesla,以10-20倍以上的速度来进行科学计算。
就AMBER这款生物化学家使用最为广泛的应用程序来说,最高可实现100倍性能提升。更重要的是,曾经需要超级计算机的关键×××现在只需 一台台式工作站即可完成。 仅仅在刚刚上线的头两周时间里,Tesla Bio Workbench网站访问量便超过10,000人次。自那时起,已经有超过150,000名浏览者通过该网站点击进入研究性程序代码各自的特定网页。
3. “一心造精品,自有识货人” – 去年我写出这句话时,只有一家OEM厂商在其产品中采用英伟达™(NVIDIA®)Tesla产品。 今天,已经有九家OEM厂商加入到这一行列中来,市面上采用英伟达™(NVIDIA®)Tesla的产品现在共有19款。许多产品采用的是英伟达™(NVIDIA®)Tesla M2050 GPU计算模块。 这些厂商中不乏业内知名厂商,其中包括Cray、戴尔、惠普以及SGI,也许最著名的当属IBM。IBM公司于五月份在iDataPlex系列产品中率先采用英伟达™(NVIDIA®)Tesla服务器解决方案,成为首家提供此类产品的一线OEM厂商。 对IBM来说,这标志着GPU计算已经发展到十分成熟的水平,足以为IBM进入这一领域提供坚强后盾。 IBM公司深度计算副总裁Dave Turek表示:
"我认为变化的是,客户长期以来一直在不断地试验,而现在他们已经准备好要购买了。 并不是该项技术促使我们推出这些产品。 是市场的成熟以及每个人对使用该项技术的态度促使我们这样做的。 就是这么简单。"
4. 助力星云,超越巅峰,问鼎天河 在六月份举办的国际超级计算大会上,全球首款基于英伟达™(NVIDIA®)Tesla GPU的千万亿次级(Petaflop)超级计算机首次亮相。 星云位于中国深圳国家超级计算机中心,该机配备了4640颗英伟达™(NVIDIA®)Tesla “Fermi” GPU,在500强榜单中勇夺亚军,持续性能达1.27 Petaflops。 ×××打造的另一台系统也跻身榜单,该机位居第19。
这标志着中国扬威世界的一个开端。 作为一个在超级计算领域相对来说刚刚起步的国家,中国不受传统软件与系统兼容性的限制,因此可以大胆地采用GPU计算。 事实表明,中国深知超级计算的意义。中国正在努力从制造大国发展成为科学技术方面的全球领袖。
在随后的SC’10超级计算大会上,来自中国的天河1A超级计算机更是凭借着2.507P的计算能力一举夺得了全球最快超级计算机的称号!
5. 科学进步的竞赛刚刚开始 - 紧接着六月份500强榜单公布之后,美国能源部科学副部长Steve Koonin在《旧金山纪事报》的社论版对页发表了一篇文章。 在文章中,他谈到了对星云的关注,他指出:“在超级计算和芯片设计这方面,美国面临的这些挑战已经对美国未来经济构成威胁。” Koonin副部长关心的是,在没有最新技术的情况下,美国将在业内关键领域中落后于其它国家,例如产品设计模拟。 这方面的领先地位让美国能够继续在技术上突破极限,同时还能够激励技术创新。
许多其他人也同意这一观点,例如Senator Mark Warner以及英伟达™(NVIDIA®)公司的Andy Keane。Andy Keane在AllThingsD网站上发表的见解引起大量热烈讨论,例如insideHPC的这则评论:
“在这个问题上我与Andy的意见是一致的,参议院应该支持参议员Mark Warner (D-VA) 及其重新核准美国竞争法的修正案。 作为一个HPC领域或者作为该领域中的一个国家,如果我们不能灵活地适应技术变革,那么我们就会受制于自己的发明而停滞不前。”
近日,英伟达试播了自己制作的一部系列纪录片,片名为“科学的第三支柱”(The 3rd Pillar of Science),片中讲到了利用GPU推动科学进步这一主题。 在这部试播片子中,我们采访了多名一流医学专家。这些专家利用GPU来实现开创性的医学方法,例如先进的×××治疗和实时心脏直视手术。
6. 2200名才子和无人驾驶汽车 – 在去年GPU技术大会取得圆满成功之后,能够在今年9月份举办第二届盛会,我们感到十分激动。 我们的与会者数量增长50%以上,远高于技术会议的平均水平。积极从事英伟达™(NVIDIA®)CUDA开发的开发商在数量上增长了近4倍,他们向大会递交提案,希望能够展示自己取得的成果。 事实上,本次大会分会议的数量翻了一番,多达280场。所有分会议均可在线观看和收听。 
能够看一看今年展会同去年有什么区别,这一点是十分有趣的。 从天体物理学到视频处理,从计算流体力学到神经系统科学、从能源勘探到汽车设计,会议主题包罗万象,使得GPU技术大会变得与众不同。 与会者中不乏工程师、科学家、开发人员、学生以及研究人员,大家齐聚一堂,共同分享经验和想法。 我们将在美国加利福尼亚州圣何塞市举办2011年GTC大会,我们希望在这次大会上能够见到大家。

与会的媒体朋友发表了许多评论,下列是我最欣赏的一些评论:
“对技术与高级计算领域来说,这绝对是一场最棒的盛会,而且也是最重要的大会之一。”
- The Exascale Report
“在此,我们见到的内容好像从螺旋桨深入到了喷气式发动机一样。” – insideHPC
“…GTC大会增长平稳,因为该大会专门聚焦CUDA平台这项英伟达面向GPU计算的业务。种种迹象均表明了一个不可否认的趋势: GPU在非图形计算方面的应用正呈增长态势,这在很大程度上要归功于英伟达公司。” - Tech Report
“英伟达GTC大会风头最劲。 各种演示、主题演讲、展览、技术论文以及新兴企业的演示文稿均属一流水准,内容十分有趣而且还增长见识。 门票的钱花得简直太值了。 没有大肆的产品宣传,没有鼓动与会者购买产品的活动。有的只是传播并行处理的理念,而并行处理是非常重要的。通过观察我们看到,本次大会举办得非常成功。”
- Tech Watch
7. 增强型工具 - 今年我们看到,在技术以及科学计算领域中,一些举足轻重的应用程序已经发布基于GPU的正式版本。 ACUSIM软件公司已经发布AcuSolve这款CFD软件的GPU版本,该版本能够为用户带来双倍性能。

宝洁公司造型与模拟总监Tom Lange表示:
"GPU加速的CFD可呈现出更加逼真的效果,有助于我们利用虚拟学习周期来替代缓慢而成本高昂的物理学习周期。 从前我们的做法是分析失败原因,而现在我们彻底改变了工程分析的面貌,真正运用了虚拟的反复试验与设计优化。"
ANSYS 已经公布ANSYS Mechanical CUDA版本的性能数据,这些数据表明,英伟达™(NVIDIA®)CUDA可令复杂模拟的周转时间减半。 Wolfram Research发布了Mathematicat的最新版本,在类似的Mathematica编程环境中,该版本在某些情况下可为用户带来100倍以上的性能提升。 看一看今年早些时候Siggraph大会上的演示视频。 最后值得一提的是,英伟达同Mathworks合作的最新版本MATLAB 2010b支持GPU加速功能,该软件面向Parallel Computing Toolbox与MATLAB Distributed Computing Server的用户。
8. “GPU从天而降” – 今年7月份,Peer1首次将GPU应用于云端,11月份Amazon Web Services (AWS) 推出GPU云端服务。 英伟达™(NVIDIA®)GPU的CUDA架构开发已经让人们能够以最低成本利用HPC架构。然而,凭借这些全新的服务,用户甚至不需要自己购买硬件。 例如通过AWS,你现在只需每小时支付区区2.10美元即可使用到2颗英伟达™(NVIDIA®)Tesla 20系列GPU以及2颗CPU。 通过利用简单的按需定价,所有规模的企业现在均能够运行繁重的模拟任务,而且不必投入巨额前期资本。
GigaOm Pro针对这项新服务发表了见解:
“其性能 (Amazon的Cluster Compute Instances) 已经非常高了,GPU的加入无疑会进一步提升计算性能。 根据HPC云资源中间商Cycle Computing的基准测试结果,GPU Instances在某些情况下可胜过公司内部的GPU集群。”
Amazon首席技术官Werner Vogels对此发表了一篇有趣的博客文章。Amazon技术专家Jeff Barr在技术方面对这一全新的服务进行了概述。
9. 高效、出色、绿色环保 – 年终之际,在新奥尔良市举办的国际超级计算大会上,英伟达™(NVIDIA®)Tesla业务引起广泛关注。 大会公布了年度最终的全球500强和Green500榜单。英伟达™(NVIDIA®)Tesla在本次评选中再创佳绩。 在国际超级计算大会即将开幕的前不久,国家超级计算天津中心发布了天河一号A,该机Linpack性能高达2.57 Petaflops,在榜单上稳居第一。 另外两台基于英伟达™(NVIDIA®)Tesla GPU的系统进入了前五名,其中一台是前面所述的星云,另一台是东京工业大学的Tsubame 2.0。
Tsubame 2.0位居Green500榜单第二名,值得注意的是,该机是前十名里唯一一台Petaflop级系统。 Tsubame 2.0虽然配备了4200颗Tesla GPU,然而功耗却仅为1340千瓦。该机是迄今为止世界上最节能的Petaflop级系统,同时也是松冈聪教授及其团队的一项惊人成果。
展会上,英伟达及其客户也荣获了一系列行业大奖。 在两项Gordon Bell大奖中,GPU的表现十分突出。 东京大学和美国普渡大学荣获最佳学生论文奖,两所大学合作开发了一种全新的接口,让GPU并行编程变得更加易于实现。 也许更加激动人心的是,我们看到一些知名机构因GPU方面的成果而获奖,其中包括Citadel Investment Group、Schlumberger以及Weta Digital。
10. 本篇年度回顾借鉴了其它一些年度回顾文章 – 在撰写本文时,一些其它年度回顾文章引起了我的注意。我借用了其中一些评论,我认为这些评论很适合用作这篇回顾文章的结尾。
HPCwire上周公布了播客年度最大趋势并宣称, GPU计算已成为年度头号趋势。 他们的评论如下:
“今年,它 (GPU计算) 已融入主流,得到了所有一线厂商的广泛采用。”
他们还补充道:
“如果没有英伟达的贡献,绝对达不到这种水平。 AMD在这方面不够热情。 英伟达投入了大量人力物力。 毫无疑问,英伟达改变了GPU计算的发展轨迹。 英伟达™(NVIDIA®)CUDA技术使这些成为了可能。”
近日,另外一篇文章出现在O’Reilly Media上。该网站为技术计算领域提供大量书籍、在线服务、杂志、研究以及会议等服务。 该文的摘要是,在计算庞大的数据量时,GPU与CPU相结合的架构是首选解决方案。
“仅仅通过运用传统多核CPU,你绝对无法以理想价位实现所需的处理性能。你需要使用由GPU打造的专用计算单元。”
我们非常赞同这一观点。 

2011年正等待着我们去奋斗拼搏。 英伟达™(NVIDIA®)Tesla和英伟达™(NVIDIA®)CUDA团队的全体员工在此恭祝您新年快乐!马到功成!