谷歌发布最新官方年报，回首谷歌大脑2017年的9大事件

最新推荐文章于 2022-09-22 12:05:47 发布

人工智能观察

最新推荐文章于 2022-09-22 12:05:47 发布

阅读量2.3k

点赞数 1

1月12日凌晨，谷歌大脑负责人Jeff Dean，按照惯例，发布了2017年度的谷歌大脑年度总结。本次总结分为两部分，主要会重点介绍2017年的一些工作，包括一些基础研究工作，以及开源软件，数据集和机器学习新硬件的更新。

在第二部分中，将深入到机器学习可能队某些特定领域产生巨大影响的研究，如医疗保健，机器人和一些基础科学领域，以及关于创造性、公平性和包容性的工作。小智君也将持续关注谷歌年度报告的最新消息。

核心研究：

谷歌大脑的一个重要关注点是：通过研究，提高机器自身的理解力以及在机器学习领域解决新问题的能力。小智君根据Jeff的原文，为大家提炼出了2017年谷歌大脑9个方面的工作。

一、AutoML

自动化机器学习的目标是为计算机开发出能够自动解决新机器学习问题的技术，而无需人类专家进行逐一干预。如果我们想要真正的智能系统，这就是最基本的能力。谷歌大脑开发了一种通过强化学习和进化算法设计神经网络体系结构的新方法，使用了增强学习和进化算法，将这项工作扩展到对ImageNet分类和检测的最新成果的同时，也展示了如何自动学习新的优化算法和有效的激活函数。同时正积极与谷歌Cloud AI团队合作，将这项技术带给谷歌客户，并继续推动这项研究在多个方向上推进。

利用AutoML发现的网络进行对象检测

二、语音理解与生成

另一个主题是开发新技术来提高计算系统的理解及生成人类语言的能力，包括我们与谷歌语音团队合作，改进了谷歌端到端语音识别方法，使谷歌语音识别系统的相对词错率降低了16％。这项工作有一个好处，即需要结合很多独立的研究思路。

用于语音识别的Listen-Attend-Spell端到端模型的组件

谷歌大脑还与谷歌的机器感知团队合作开发了一种新的文本到语音生成的方法（Tacotron 2），极大地提高了生成语音的质量。

Tacotron 2的模型架构

三、新型机器学习算法

Jeff表示谷歌将继续开发新的机器学习算法和方法，包括

Capsules（在执行视觉任务时，作明确地寻找激活功能协议，以作为评估多个不同噪声假设的方式）；
Sparsely-gated Mixtures of Experts（实现了超大规模但仍有计算效率的模型）；Hypernetworks（使用一个模型的权重来生成另一个模型的权重）；
新型多模模型（使用相同模型执行音频、视觉和文本输入等多任务学习）；
基于注意力的机制（取代卷积和循环模型）；
符号和费符号学习的优化方法；
通过离散变量反向传播的技术以及对强化学习算法的改进。

四、计算机的机器学习

2017年，谷歌大脑已经展示了如何使用强化学习来进行放置决策，以便将计算图映射到比人类专家更好的一组计算设备上。

Jeff讲到：与Google Research的其他同事一样，我们在“学习索引结构的案例”（The Case for Learned Index Structures）这篇文章中，展示了神经网络比传统数据结构（如B-trees、哈希表和Bloom过滤器）速度更快，更小。我们相信，我们只是掌握了核心计算机系统中使用机器学习的皮毛，正如NIPS关于机器学习系统和系统的机器学习讨论会上所述。

作为Index结构的学习模型

五、隐私与安全

机器学习及其安全与隐私的一直是谷歌大脑的研究焦点。在一篇论文中，谷歌大脑展示了机器学习技术可以应用于提供不同的隐私保护的方法，而这篇论文获得了ICLR 2017年的最佳论文奖。同时还调查了对抗样本的属性，包括在物理世界中展示对抗样本，以及如何在训练过程中大规模利用对抗样本，使模型更适用于对抗样例。

六、了解机器学习系统

虽然谷歌大脑在深度学习方面取得了不错的成绩，但更重要的是理解它为什么起作用，以及什么时候不起作用。最近他们发现，目前的机器学习理论框架无法解释深刻的学习方法的令人印象深刻的结果。

为了更好地理解深层架构下的训练是如何进行的，谷歌大脑发表了一系列分析随机矩阵的论文，因为它们是大多数训练方法的出发点。了解深度学习的另一个重要途径是更好地衡量它们的表现。在最近的一项研究中，谷歌大脑展示了良好的实验设计和统计严谨性的重要性，比较了许多GAN方法后发现，许多流行的生成模型增强并没有提高性能。

同时谷歌大脑正在开发能更好地解释机器学习系统的方法。2017年3月，其与OpenAI，DeepMind，YC Research等合作，宣布推出Distill，这是一本致力于支持人类对机器学习的理解的在线开放性科学期刊。它在机器学习概念的清晰阐释，和在其文章中出色的交互式可视化工具方面广受好评。

特征可视化

七、ML研究的数据集

MNIST、CIFAR-10、ImageNet、SVHN和WMD等开放数据集快速推动了机器学习的研究进展。谷歌大脑和谷歌研究院一起，在过去一年里一直积极探索开放有趣的新数据

集，用于开源机器学习领域的研究。我们提供了规模更大的有标签数据集，包括：

YouTube-8M：使用4,716个不同类别注释的700万YouTube视频；
YouTube-Bouding Boxes：来自210,000个YouTube视频的500万个bounding boxes；
Speech Commands数据集：包含数千个说话者说的短指令词；
AudioSet：200万个10秒的YouTube视频剪辑，标记有527个不同的声音事件；
Atomic Visual Actions（AVA）：57,000个视频剪辑中的21万个动作标签；
Open Images：使用6000个类别标记的900万个创作共用许可的图像；
Open Images with Boundign Boxes：600个类别的120万个bounding boxes。

八、TensorFlow开源软件

TensorFlow用户分布图

2015年11月，开源了第二代机器学习框架TensorFlow，希望机器学习社区能够从机器学习软件工具的投资中受益。2017年2月，发布了TensorFlow 1.0。

2017年2月，谷歌大脑举办了首届TensorFlow开发者峰会，450多人参加了在山景城举办的这次活动，超过6500人观看了在线直播，包括在全球35国家和地区举办了超过85场的本地活动。2018年3月30日，Jeff透露，谷歌将在湾区举办另一场TensorFlow开发者峰会。

九、TPU

TPU提供高达180 teraflops的机器学习加速

深度学习的计算量非常大，但它们有两个特殊的性质：由密集的线性代数运算（矩阵倍数，向量运算等）组成；对精度容忍度高。我们意识到，可以利用这两个属性来构建能够非常有效地运行神经网络计算的专用硬件。

谷歌大脑为谷歌的平台团队提供了设计输入，他们设计并生产了第一代Tensor Processing Unit（TPU）：一种旨在加速推理深度学习模型的单芯片ASIC（推理是使用已经过训练的神经网络，与训练不同）。这款第一代TPU已经在我们的数据中心部署了三年，并且已经被用于谷歌搜索查询，谷歌翻译，谷歌相册，AlphaGo与柯洁的围棋比赛中。