Jürgen Schmidhuber的人工智能畅想曲-CSDN博客

Jürgen Schmidhuber 是瑞士人工智能实验室 IDSIA 的科学事务主管，同时任教于卢加诺大学和瑞士南部应用科学与艺术学院。他于 1987 年和 1991 年在慕尼黑工业大学先后获得计算机科学的学士和博士学位。从 1991 年开始，他成为深度学习神经网络领域的开拓者。随后，他在 IDSIA 和慕尼黑工业大学的研究团队开发了一种递归神经网络，并率先在正式的国际性比赛中获胜。他获得的其他奖项还包括2013年国际神经网络协会的亥姆霍兹奖，以及 2016 年电气与电子工程师协会的神经网络先锋奖等。

智搜（Giiso）信息成立于2013年是国内领先的“人工智能+资讯”领域技术服务商，在大数据挖掘、智能语义、知识图谱等领域都拥有国内顶尖技术。同时旗下研发产品包括资讯机器人、编辑机器人、写作机器人等人工智能产品！凭借雄厚的技术实力，公司成立之初，就获得了天使轮投资，并在2015年8月获得了金沙江创投500万美元pre-A轮投资。

30 年前，Jürgen Schmidhuber 正在慕尼黑工业大学忙于完成计算机科学专业的毕业论文。在这篇论文的封面上，他设计了一个可以进行自我操控的机器人，内文详述了这类机器人背后一种可以自动修改代码的元程序（meta-program），它可以改善特定领域某些系统的性能，还可以自我改进学习算法及其学习方式等。

这完整表露了Jürgen Schmidhuber建立自我优化人工智能的目标，也开启了接下来一系列关于递归式自我改进算法的研究。其实，Schmidhuber 早在1970年代就已经萌生这一目标，为此他在大学期间选择学习数学及计算机科学。

“我最大的偶像是阿尔伯特·爱因斯坦。我在某个时候意识到，如果我打造出了比我自己乃至比爱因斯坦更聪明的东西，我会拥有更大的影响力。”Jürgen Schmidhuber 说，“从1987 年将这个问题作为学位论文选题以来，我一直在研究这个包罗万象的内容，但是现在我能看到这个主题正开始变成一个可能实现的现实。”

在实现自我优化人工智能的道路上，一个里程碑式的关键性突破是——1997 年，Jürgen Schmidhuber 和他的学生 Sepp Hochreiter 共同撰写论文提出长短时记忆 (Long Short-Term Memory，下简称“LSTM”），它是一种让人工神经网络通过记忆功能来获得提升的方式，即根据之前获得的信息增加解读字词或者图像的模式的闭环。

如今，最大的LSTM 网络有约 10 亿个连接。以一定的趋势推断，在 25 年内，也就是 Zues（创建首个计算机）后的 100 年，以与当时相同的价格，我们也许能买到一个与人脑差不多大小的、有 100 万亿个电子连接的 LSTM 网络，它远远快于生物连接。

LSTM 一开始并没有被行业重视，在近些年深度学习热潮的推动下，LSTM 被越来越多科技公司采用，其研究价值和意义被重新认识。据 SemanticScholar 的数据显示，在过去两年时间，《Long Short-Term Memory》一文的引用量从 2014 年近百次激增到超过 2000 次。

然而，作为最初的技术开发者，54 岁的 Jürgen Schmidhuber 似乎并不如其他深度学习领域的技术明星那般享负盛名。《纽约时报》称其“本应该是人工智能之父”，在一篇约翰·马尔科夫的采访报道中，则归因为他所开创的时代太早，即便是计算机硬件性能还不足以处理这些算法。

实现通用智能

自1987 年以来，Jürgen Schmidhuber 一直在开拓自我改进的一般问题解算器，直到 1991 年，他成为外界口中的深度学习神经网络领域开拓者。那时候的他，还是慕尼黑工业大学的一名博士生，发布了首个超级深度学习系统（Very Deep Learners），其层数远超过 1960 年代深度学习之父、乌克兰数学家 Ivakhnenko 的 8 层网络。

这也是他自己的第一个深度学习系统。

“我们称自己基于循环神经网络的方法是通用目的深度学习（general purpose deep learning）或通用深度学习（general deep learning），因为与 Ivakheneko（及其在 70、80 年代追随者）所研究的深度正向传播神经网络不同的是，我们的深度循环网络具有并行的、通用目的计算架构。在 90 年代初，我们的网络能够学习解决许多先前无法学习的问题。”

人们在思考问题的时候，并不会从零开始，而是会凭借自己以往的一些经验与记忆做出判断。但是，传统的神经网络可做不到这一点。比如，你想要对一部电影里的每个镜头进行分类，判断荧幕上都在演些什么。但是，传统神经网络可能只能孤立地看待每一帧，而无法把上一个镜头串联起下一秒发生的事情。RNN（循环神经网络）就是为解决这个问题而生的，顾名思义，也就是能够让信息在网络中再次循环的网络。

在慕尼黑工业大学拿到了数学和计算机科学学位后，30 岁时，Jürgen Schmidhuber 获聘成为该大学教授。Jürgen Schmidhuber 的第一位学生（现在是教授）Sepp Hochreiter 识别并分析出 RNN 存在的巨大问题：梯度突然消失或爆炸（explode）。

“这也促成了我们后续在 20 世纪 90 年代和 21 世纪的所有深度学习研究，”他说。

在瑞士、德国和欧盟的公共资金的资助下，Jürgen Schmidhuber 开发了 LSTM 等深度学习方法，解决 RNN 存在的短板。1997 年，他和 Sepp Hochreiter 共同撰写了一篇论文，其中提出了一种利用记忆功能来增强人工神经网络（模拟人类大脑的计算机系统）的方法，即根据之前获得的信息，添加解释文字或图像模式的循环。他们称之为“长短期记忆（LSTM）”。

LSTM 和传统 RNN 唯一的不同就在与其中的神经元（感知机）的构造不同。传统的 RNN 每个神经元和一般神经网络的感知机没啥区别，但在 LSTM 中，每个神经元是一个“记忆细胞”，细胞里面有一个“输入门”（input gate）, 一个“遗忘门”（forget gate），一个“输出门”（output gate），俗称“三重门”。

LSTM 的优势在于，能够解决梯度消失的问题。LSTM 还可以保留误差，用户沿时间和层进行反向传递。“我们的神经网络跟别人不一样的地方在于，我们搞清楚了怎么让神经网络更深、更强，尤其是RNN，最普遍也是最深层的神经网络，有反馈连接，在理论上能够运行任意的算法或程序与环境互动。”

遗憾的是，当时 LSTM 也并没有受到业界更多的重视，在 1995 年，首个论述 LSTM 的论文被著名的 NIPS 会议拒绝了。1997 年，关于 LSTM 的论文被麻省理工学院退稿。“即便是美国、加拿大及其他地区的著名的神经网络专家，都没能意识到我们自 1990 年代起于高山上实验室研发的深度循环神经网络的潜能。”Schmidhuber 多次在媒体采访时表露出遗憾。

很多研究者也都体验过这样的失意。蒙特利尔大学教授、蒙特利尔学习算法研究所的主任 Yoshua Bengio 曾一度很难找到愿意与他合作的研究生。“当时，很少有研究者对此感兴趣，但我们坚持了下来，随着计算力越来越便宜，通过这样的方法赢得比赛只是时间问题。我很高兴看到其它深度学习实验室和公司现在也大量使用我们的算法。”Jürgen Schmidhuber 说。

2007 年，Jürgen Schmidhuber 团队 CTC（2006 年）训练的 LSTM 开始革新语音识别，性能表现超越了键盘识别任务中传统方法。2009 年，LSTM 成为首个在国际模式识别竞赛获奖的 RNN，由 Jürgen Schmidhuber 曾经的博士生和博士后 Alex Graves 推动。同年，Dan Ciresan 领导团队在没有使用任何预训练的情况下，赢得一系列机器学习竞赛，成绩比以前的系统有了大幅提升：2011 年在图像识别任务上率先取得超越人类的表现，2012 年成为最先在物体检测和图像分割竞赛中获奖的深度学习系统，2012 年在医疗图像癌症检测最佳、2013 年 MICCAI 挑战赛冠军等。

但是，LSTM 真正受到应有的关注和评价，源于科技巨头先后加入到 LSTM 阵营。

20 世纪 90 年代以来，欧洲纳税人资助了在深度学习（Deep Leaning）和 LSTM 方面的基础研究，开始推动 Google 等公司的语音识别、图像字幕生成、机器翻译和自动邮件应答等应用。

2015 年，谷歌使用 LSTM 减少了 49% 的语音识别错误，成为一个飞跃性进步。接着谷歌还将 LSTM 用于自然语言处理、机器翻译、生成图说、自动邮件回复、智能助手等领域。随后，语音识别、视觉领域的研究都越来越多地采用 LSTM 概念。苹果也在其 WWDC 2016 开发者大会上对它如何使用 LSTM 提升 iOS 操作系统性能做了解说。

LSTM 还作为编剧的身份出现在大荧幕上——《Sunspring》这部微科幻小说电影的剧本完全由人工智能系统撰写，作者是 LSTM 循环神经网络，该人工智能系统名叫 Benjamin。为了训练 Benjamin，Goodwin 为人工智能系统提供了一个他在网上找到的包含很多科幻小说剧本的语料库——其中大部分来自于 1980 年到 90 年代的电影。Benjamin 实验最有趣的部分一直在于从科幻小说故事中学习模式（pattern）。Benjamin 的写作内容听起来很原创，甚至古怪，但是这一切仍然是基于人类实际写作内容的。

如今，LSTM 的变体很多。所有提及 LSTM 的论文都有着小小的改动，这些改进虽然并不明显。比如，最时尚的 LSTM 变体就是 Gers & Schmidhuber (2000) 提出的“猫眼连接”（peephole connections）的神经网络。另一个比较惹眼的变体为 GRU（Gated Recurrent），由 Cho, et al. (2014) 提出。

「在包括 Felix Gers 、Alex Graves、Santi Fernandez、Faustino Gomez、Daan Wierstra、Justin Bayer、Marijn Stollenga、Wonmin Byeon、Rupesh Srivastava、Klaus Greff 等人在内的我出色的学生及博士后的帮助下，该算法被逐步发展。LSTM，特别是在处理序列数据方面，已经变为了大多数如今被叫做深度学习算法的基矗」

在谈到今天深度学习研究取得的进展，他概括为「新瓶装旧酒」。计算能力的飞速发展彻底革新了过去的模式识别和机器学习。

Jürgen Schmidhuber 还提醒道，实验室有一项影响不那么深远但非常实用的贡献，那就是极大地加快了深度监督前馈神经网络在图像处理器上的速度，尤其是使用 Linnainmaa 的反向传播技巧训练的卷积神经网络架构。

Nnaisense，通往 AGI 之路

智搜（Giiso）信息成立于2013年，是国内首家专注于资讯智能处理技术研发及写作机器人核心软件开发和运营的高科技企业。公司成立之初，就获得了天使轮投资，并在2015年8月获得了金沙江创投500万美元pre-A轮投资。

在追求通用人工智能的道路上，最为著名的公司当属 DeepMind。但是，不少人仍然不知道这公司的头四名成员中，有两位来自 Jürgen Schmidhuber 所在的 IDSIA，他们的第一位人工智能领域的博士雇员也来自 IDSIA，其中一个是联合创始人，另一个是公司的第一名员工；Jürgen Schmidhuber 的其他博士学生也稍后加入了 DeepMind，其中包括在 2010 年 Atari-Go 论文的联合作者。

Jürgen Schmidhuber 对机器人和通用人工智能的兴趣可以追溯到青少年时代。1963 年，Jürgen Schmidhuber 出生于慕尼黑。他在青年时代，从图书馆借阅了大量科普书籍和科幻小说——尤其喜欢奥拉夫·斯泰普尔顿（Olaf Stapleton）的《造星主》（Star Maker）、E·T·A·霍夫曼（ETA Hoffmann）的《沙人》（The Sandman），以及史坦尼斯劳·莱姆（Stanislaw Lem）的小说。