新智元专访CVPR2019程序主席微软华刚：arXiv让双盲评审形同虚设，单纯刷分把研究机械化，暴力化...-CSDN博客

5月11日凌晨，英伟达CEO 黄仁勋在 GPU峰会（GTC）上发表主旨演讲，介绍了这家在深度学习红利下飞速发展的芯片公司接下来的布局情况，黄仁勋在会上有“7大发布”，分别是：“迄今为止最先进的深度学习 GPU Tesla V 100”、“面向TensorFlow 的TensorRT”、“英伟达GPU云”“AI 研究基础设施DGX-1和DGX Station”、“开源自动驾驶超级计算机 Xavier DLA ” “丰田采用其无人驾驶系统”“机器人模拟系统ISAAC”。

黄仁勋：从摩尔定律的尽头到深度学习大爆炸

黄仁勋的主旨演讲从摩尔定律讲起。他说，在过去30年中，我们从一股强大的力量中受益良多：摩尔定律使我们能够一年又一年地推进微处理架构。此外，Dennard扩展规律也让我们能够将更多的晶体管放置在一个区域。我们将微处理器性能提高了一百万倍。社会上几乎没有什么事情的进步会比这更快。但是，物理学的规律正在追赶着我们。我们现在在两条路的尽头。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

他说：这也是我们存在的根本——找寻摩尔定律之后的新生路。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

随后，他谈到了AI，他说，新的时代出现的第一个趋势是GPU计算的兴起。第二个计算时代就是机器学习的时代。

深度学习开源让软件编写软件，算法编写算法。他引用了李飞飞教授的话，说到有三个要素驱动了人工智能的发展：1）深度学习方法的高潮，2）大量的数据; 3）GPU的使用。

黄仁勋说，瑞士、加拿大、美国等全世界的实验室在深度学习上的丰硕成果，让大家一起进入了一个深度学习大爆炸（Big Bang of Deep Learning）的时代。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=gif&tp=webp&wxfrom=5&wx_lazy=

一图看懂GTC 7 大产品发布

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

1. 迄今为止最先进的深度学习 GPU ——Tesla V100

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

当地时间10点，黄仁勋宣布将向观众介绍“下一个计算级别”的项目。他发布了 Tesla Volta V100，现场响起了热烈的掌声。

据黄仁勋介绍，Tesla Volta V100 使用了 TSMC 12nm finfet 的工艺，达到了光刻的极限，拥有5,120 个 CUDA 内核，并具有 120 TeraFLOPS 的性能，配备新处理器 Tensor Core。黄仁勋说能将这个 CD 大小的东西制造出来本身就是非凡的成就。

研发成本大概花了 30 亿美元，黄仁勋说。

与帕斯卡架构相比，TESLA V100 在HPC 通用目的FLOPS是1.5倍，在深度学习的训练上Tensor FLOPS 达12 倍，在深度学习的推理上Tensor FLOPS 达6 倍。黄仁勋介绍，这款芯片是AI 和HPC的巨大飞跃。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

新款Tensor Core是4×4矩阵阵列。它完全针对深度学习进行了优化。我们觉得 Pascal 还不够快。新的 Tensor Cole 比Pascal晚了一年，但是它的张量运算速度却是 Pascal 的12倍，推理能力则提升了 6倍。

杜克大学陈怡然教授对新智元表示，V100的 12X training 主要就是靠 Tensor Core，Inference 还是低精度的，说明这个已经是标配。

但是，Tensor的出现实际上是以矩阵为单位计算，类似的想法在中科院大电脑系列和TPU，甚至以memristor crossbar为基础的硬件架构上都出现过。Tensor core的架构是很多startup的技术基础跟卖点，这对很多芯片创业公司来说不是一个好消息。

前富士通研发中心研究员吴春鹏告诉新智元，Google的TPU也是强调Tensor。机器学习中数据处理的基本单位是矩阵，所以在GPU/TPU中用Tensor等于实现了软硬件数据结构的统一。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

会上，黄仁勋还宣布了为VOLTA 推出的新深度学习框架，其中包括Caffe2、Microsoft Cognitive Toolkit，MXnet。使用Caff2来训练一个卷积神经网络，在8 k80s上需要花费40小时，在Pascals上需要花费20个小时，在8 Voltas上只需5小时。黄仁勋对MxNet的评价是：“难以置信地受欢迎”。

2. 面向TensorFlow的TensorRT

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

黄仁勋宣布了面向TensorFlow 的 TensorRT （RT 指运行时间）。它使训练加速了12倍，推理加速了 6倍的。（张量——黄仁勋指出——是一个包含向量的数学对象。）

他展示了一个图表，描述了ResNet-50上的产量（throughput）和延迟方面的推理性能，以图像数量/每秒为单位。 P100每秒可以做600张图像，而英特尔的Broadwell CPU每秒可以完成100张图像，K80可以每秒进行200张。但Volta可以每秒钟完成 5000 张以上的图像。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

“Volta 是开创性的。” 黄仁勋说：“它在训练方面表现得非常好，在推理上表现尤其出色。” “Volta和TensorRT是推理任务的理想选择。”

3. 英伟达GPU云

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

黄仁勋在现场发布了英伟达GPU云。他说，我们使用我们所知道的每个框架和软件版本封装一个巨大的堆栈，然后为其创建一个云注册表。所以，如果你有一个 titan X，你就可以去一个网站，输入你的地址并下载一个封装好的堆栈。无需配置。一旦你开始使用该平台，就马上能明白可以通过一次轻轻的点击创建实例，将容器和工作负载下载到云中。这是第一个混合深度学习云平台。

名叫 Phil 的工程师推出了英伟达 GPU Cloud（NGC），并展示了创造深度学习工作所需的三个步骤。首先，您要选择一个环境：云，你自己的DGX-1，您自己的DGX站或Titan PC。如果你选择云，你又可以从一系列选项中进行选择。接下来是选择数据集。最后，选择你想要的容器化框架，比如Pytorch、，Caffe2和其他选择（他们会每月更新的）。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

现场演示：只需三步就能在英伟达GPU云上完成训练：

1.选择在哪运行环境，云或GDX

2.第二步选择数据库

3. 选择框架，优化过后的

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

4. AI研究的基础设施：DGX-1和DGX Station

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

黄仁勋宣布推出带有8个Telsa v100的NVIDIA DGX-1。他认为这是“AI研究的基础设施”。过去要花一个星期的任务，现在瞬间就能完成。它顶替了 400 台服务器，提供了 960 tensor TFLOPS。它将在第三季度出货，价值149,000美元。他指出，如果你现在有一个由Pascal驱动的DGX，你可以免费升级到Volt.

另外，还有一个小版本的DGX-1，称为 DGX站。“你可以把它当成是个人用的，非常安静。我们每个深度学习工程师都有一个。”黄仁勋说，“它配备有4个 Tesla V100。价格是69000美元。 Q3就出货。

5. 9月正式开源 Xavier DLA

Xavier 是英伟达全新的AI超级计算机，专为无人驾驶汽车设计。现在具备了深度学习加速(DLA）的Xavier DLA 9月将全面开源。

6. 无人驾驶Drive PX，与丰田合作

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

Drive PX使用了一个称为Xavier的新处理器。Xavier 可以在深度学习应用程序中每秒执行30万亿次操作，功率仅为30瓦。丰田就将把英伟达的Drive PX超级计算机使用到其无人驾驶车辆身上。

Xavier使用定制的ARM64中央处理器和512 Core Volta图形处理器（GPU）。该芯片设计为可编程且低功耗，并且能够运行无人驾驶车的软件。英伟达将从9月开始开源Xavier深度学习架构软件。

7.Isaac 机器人模拟器

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

Isaac 机器人模拟器让机器人在被部署到现实世界之前先受到模拟条件的训练。英伟达提供了基于 Jetson 的平台，使得创建智能机器人变得更简单。

黄仁勋介绍了 Isaac，一个可以打曲棍球的机器人，指出了 Isaac 如何使用深度学习神经网络找出最好的方法来打出一记好球，并随着时间的推移不断学习。他说：“我们开发了一款新模拟器，称为Isaac。取这个名字是为了向两位 Isaac 致敬，一位是牛顿（ Isaac Newton），另一位是科幻小说家阿西莫夫（Issac Asimov）”。

“基于人工智能的机器人对改善生活有着巨大的希望，但对这些机器人的建设和训练也带来了重大挑战。”黄仁勋说，“英伟达正在通过应用我们在模拟现实世界中的深厚专业知识来革新机器人行业，从而使机器人能够更准确、更安全、更快速地进行训练。”

在GTC上，超过50家公司在基于英伟达的 Jetson 平台上展示了自家的机器人，可以快速、高效地处理边缘设备上的复杂数据。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

机器人能够处理诸如搜索、救援、老年人协助和繁琐而有风险的工业领域自动化等任务。Isaac 机器人模拟器提供基于AI的软件平台，让团队在高度现实的虚拟环境中训练机器人，然后将该知识转移到现实世界中。

Isaac 建立在 Epic Games 的虚拟引擎 4 的增强版上，并使用了英伟达高级模拟、渲染和深度学习技术。

在这个虚拟环境中工作，开发人员可以使用深度学习训练来设置测试场景，然后在几分钟内模拟它们。一旦模拟完成，信息可以快速转移到现实世界的机器人身上。使用Jetson平台的用户包括丰田、Teal、Enroute Lab，Starship，Marble，FIRST和Dispatch.AI。

英伟达的野心和战略

从黄仁勋在大会上的演讲，以及英伟达所发布的一系列产品来看，英伟达正在打造一整套从硬件架构到算法再到系统的生态体系。我们不仅看到了下一代的GPU，还看到了英伟达GPU云、机器人模拟系统和无人驾驶系统等等。

另一个不容忽视的层面上，在联手企业打造生态上，英伟达由于在GPU上的独特优势，已经形成了不小的势力积累。黄仁勋在会上介绍了英伟达的Inception平台，目前平台上已经集合了1300家深度学习初创企业。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

此外，在今年的GTC大会上，黄仁勋也自豪地称，世界最顶级的15家科技公司都参加了本届GTC大会，另外还有10家汽车制造商、80家AI 初创企业以及20家VR初创企业。

这一种从技术到产业的合纵连横充分显示了这家近两年在深度学习热潮中迅速崛起的芯片企业的野心。

就在GTC大会上英伟达公布下一代GPU时，股价瞬间狂涨20%。而在过去的一年内，英伟达的股价大涨已经不是什么新鲜事了。5月10日，英伟达公布2018财年第一季度，最新发布财报显示，公司2017财年一财季盈利5.07亿美元，同比增长158.67%。公司2017财年一财季营业收入19.37亿美元，同比增长48.43%。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

来自“雪球”的数据显示，5月10日收盘时，英伟达股价涨了17.83%，总市值已经超过了700亿美元的大关。同时，高通的市值为817.61亿美元，而此前一直处在“老大”位置的英特尔，市值1700.06亿美元。

从数字上看，英伟达在GPU的帮助下，借助深度学习的崛起，实现股价连年普涨，市值上已经逐渐逼近高通。目前，AI 芯片是各大芯片厂商的必争之地，英伟达有一定的先发优势和积累，并且在后续布局上有较强的可持续性，对英特尔等老牌霸主形成了强有力的冲击，未来，各大芯片公司的竞争还将进一步白热化，在各个层面，不管是技术还是应用都会展开竞争，对整个人工智能的发展也将发生更加长远的影响。

文章转自新智元公众号，原文链接