科普：从神经网络到 Hugging Face——神经网络和深度学习简史-CSDN博客

本文链接：https://blog.csdn.net/specssss/article/details/137149523

活中没有什么可怕的东西，只有需要理解的东西。—— 居里夫人

深度信念网络

2006年，加拿大多伦多大学教授杰弗里·辛顿在研究如何训练多层神经网络，他已经在神经网络领域默默耕耘了三十多年，尽管在这个领域他算得上是泰斗级的人物，但由于神经网络在人工智能行业一直不被看好，所以他的研究成果一直不为业界所重视。

辛顿出生于英国伦敦，他的家族出过不少知名学者，创立布尔代数的逻辑学家乔治·布尔便是他的曾曾祖父。他的祖父是位科普作家，父亲是昆虫学家。辛顿比周围的人都要聪明，但他的求学之路却颇为曲折，先是在大学攻读建筑学，转而又选择物理学，后又改读哲学，最后以心理学学士身份毕业。1972年辛顿进入爱丁堡大学攻读博士学位，研究方向是神经网络。彼时神经网络被业界所鄙夷，连辛顿的导师也认为这玩意没什么实际用途，也没有前途可言。但辛顿却不为所动，对神经网络研究怀有信心，坚持认为能够证明神经网络的价值，这一坚持就是三十多年。辛顿年轻的时候有一次搬移取暖器，腰椎间盘滑脱了，此后便一直饱受腰背病痛问题的困扰。近年来，问题更严重了，大多数时候，他需要平躺着以缓解疼痛，这意味着他不能开车，也不能坐飞机，甚至在实验室里会见学生时，也要平躺在办公室的折叠床上。身体上疼痛的折磨带给辛顿的打击还不如学术研究被冷漠那么大。早在1969年，明斯基在《感知机》一书中就对多层感知机下了定论，给后来的神经网络研究盖戳：“多层感知机不会有发展前景，因为世界上没人可以将多层感知机训练得足够好，哪怕是令它可以学会最简单的函数方法。” 单层感知机能力有限，连“异或”这种基础的分类问题也实现不了，而多层感知机又没有可用的训练方法，等于说神经网络的研究方向是死路一条。神经网络在业界被认为是学术异端，没有人相信它可以成功，因此一般学生在选择导师的时候都谨慎绕开神经网络，一时间辛顿甚至都招不满研究生。

1983年，辛顿发明玻尔兹曼机，后来，简化后的受限玻尔兹曼机被应用于机器学习，成为深度神经网络的层级结构基础。1986年，辛顿提出适用于多层感知机的误差反向传播算法（BP），这一算法奠定了后来深度学习的基础。辛顿每隔一段时间都能发明出新东西，而他也坚持写了两百多篇神经网络相关的论文，尽管这些论文不被待见。到了2006年，辛顿已经积累了丰富的理论和实践基础，而这一次，他发表的论文将改变整个机器学习乃至整个世界。

辛顿发现，拥有多个隐藏层的神经网络能够具有自动提取特征学习的能力，相比传统的手工提取特征的机器学习更有效果。另外，通过逐层预训练的方式可以降低多层神经网络的训练难度，而这解决了长期以来多层神经网络训练的难题。辛顿将他的研究成果发表在两篇论文中，而当时神经网络一词被许多学术期刊编辑所排斥，有些稿件的标题甚至因为包含“神经网络”就会被退回。为了不刺激这些人的敏感神经，辛顿取了个新名字，将该模型命名为“深度信念网络”（Deep Belief Network）。

感知机

其实神经网络的研究可以追溯到上世纪四十年代。1940年，17岁的沃尔特·皮茨在伊利诺伊大学芝加哥分校结识了42岁的教授沃伦·麦卡洛克，一见如故，便加入了后者的研究项目：尝试用神经元网络建立一个在逻辑运算基础上的机械性的大脑思维模型。他们用逻辑运算来抽象人类大脑的思维模型，提出了“神经网络”（Neural Network）这一概念，而神经元是神经网络中的最小信息处理单元；并且他们将神经元的工作过程抽象简化成一个非常简单的逻辑运算模型，后来这个模型被命名为“M-P神经元模型”，以他们两姓名的首字母来命名。

在这个模型中，一个神经元会接受过个来自于其他神经元传递过来的输入信号，不同的输入信号的重要性有差异，这种差异就通过连接上的“权重”（weight）大小来表示，该神经元将所有输入值按照权重加权求和，再将结果跟神经元的“激发阈值”（Threshold）进行比较，以决定是否对外输出信号。“M-P模型”足够简单直接，而且可以通过符号逻辑来模拟实现，人工智能专家以该模型为基础，构建了神经网络模型，用来解决机器学习任务。这里简单说明下人工智能、机器学习和深度学习的关系：人工智能就是使用计算机技术来实现人类智能的技术，在一般教材定义为研究与构建智能体。智能体就是 Intelligent agent，或简称 agent，它通过模仿人类思维和认知来解决特定任务或通用任务，解决特性任务的智能体被称为弱人工智能，或狭义人工智能（ANI），而解决通用任务的智能体被称为强人工智能，或通用人工智能（AGI）。机器学习是人工智能的一个分支，它通过数据进行学习并改进系统。而深度学习则又是机器学习的一个分支，它使用神经网络技术进行机器学习。

1957年，康奈尔大学心理学教授罗森布拉特在IBM计算机上模拟实现了一个神经网络模型，他称之为“感知机”（Perceptron）。他的做法是将一组M-P模型神经元组合在一起，可以用来训练并完成一些机器视觉模式识别方面的任务。一般来说，机器学习有两种任务：分类和回归。分类问题是判断数据是哪一类的问题，比如识别图像是猫还是狗；而回归问题是根据一个数据预测另一个数据的问题，比如根据人的图像预测其体重。感知机解决的是线性分类问题。以《智慧的疆界》书中对感知机工作原理的举例来解释：

假设任务目标是自动识别阿拉伯数字，待识别的数字是将手写或印刷的各种形式的数字&#