Google为TensorFlow设计的专用集成电路TPU3.0图片

猛码Memmat

已于 2023-08-20 16:43:05 修改

阅读量665

点赞数 1

分类专栏： init.dl 文章标签： tensorflow 机器学习人工智能

于 2023-06-16 16:44:00 首次发布

本文链接：https://blog.csdn.net/JishuFengyang/article/details/131249313

版权

init.dl 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

在这里插入图片描述

Widrow也是在Minsky的影响下进入AI领域的，后来加入斯坦福大学任教。他在1960年提出了自适应线性单元（Adaline），一种和感知器类似的单层神经网络，用求导数方法来调整权重，所以说有“三十年神经网络经验”并不为过。不过当时他认为神经网络乃至整个人工智能领域风险有点高，于是他转向了更稳妥的自适应滤波和自适应模式识别研究。
当领域进入低谷，研究人员换了个名字继续进行研究。甚至1986年神经网络复兴的时候，Rumelhart编的那本论文集并没有叫“神经网络”，而是“并行分布式处理”（Parallel Distributed Processing）这个低调的名字。
当领域进入高潮，那些潜伏的研究再次回归本宗——当然，很多原本不在其中的方法也会来“搭便车”。例如，支持向量机（SVM）方法虽然在20世纪60年代就有了，在20世纪90年代复兴的时候，采用的名字却是“Support Vector Network”，以神经网络的面貌出现，直到神经网络进入低谷才把“Network”去掉。

异或问题本质上是线性不可分问题。为了解决这个问题，在网络里引入非线性，以及将这些非线性函数组合的参数化学习方法（BP算法等）。但是这样复杂的高维非线性模型，在计算上遇到了很多挑战，基本上都是和链式求导的梯度算法相关的。

维度灾难的另一个后果是泛化问题。比如训练一个手写数字识别器，稍微变化一下图像可能就识别不了了。这个问题的原因是误差求导是在一个高维空间里，目标函数是一个多“峰值”和“谷底”的非线性函数，这就导致了梯度下降迭代终点（“吸引子”）往往不一定是希望找到的结果（全局最优解）。甚至，有些迭代终点根本不是任何目标模式，称为“伪模式”或者“伪状态”。

科学有对错

Hinton在2015年的一个教程里也总结了基于BP的前馈网络的问题。

（1）数据：带标签的数据集很小，只有现在（2015）的千分之一。

（2）算力：计算性能很低，只有现在（2015）的百万分之一。

（3）算法：权重的初始化方式和非线性模型错误。

回到1995年，那时大家并没有Hinton在20年后的这些洞见，但是也能意识到神经网络的这些问题很难解决。再一次，“极高的期待导致极度的怀疑”，未能兑现的承诺导致了资金的快速撤离和学术热情的大幅下降。几乎所有的神经网络公司都关门了——至少有300家AI公司，包括Minsky的Thinking Machines（1994）也关门了。

在这里插入图片描述

SVM以牺牲了一点表达力灵活性（通常核函数不是任意的）为代价，换来了实践上的诸多方便。而神经网络在之后的17年里，逐渐从“主流”学术界消失了，直到跌到了“鄙视链”的最下面。据说Hinton从20世纪90年代到2006年大部分投稿都被会议拒掉，因为数学（相比统计机器学习）看起来不够“fancy”（新潮）。

20世纪90年代中期到2010年左右在整体上被认为是第二个AI冬天，神经网络无疑是其中最冷的一个分支。值得一提的是，这段时间内互联网兴起，连带导致机器学习方法和语义网方法的兴起，算是这个寒冬里两个小的局部春天。不过在这个神经网络“潜龙勿用”的第二个蛰伏期，有些学者依然顽强坚持着，转机又在慢慢酝酿。
在这里插入图片描述