深度学习入门

何遇mirror

于 2024-09-28 14:00:00 发布

阅读量477

点赞数 4

文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_43298211/article/details/142604011

版权

深度学习定义

深度学习是机器学习的一个分支，它模仿人脑处理数据和创建模式的方式，用于解决复杂的模式识别问题。与传统的机器学习方法相比，深度学习能够自动从原始数据中学习到更高层次的特征表示，而无需人为地进行特征工程。这种能力主要得益于其核心架构——深层神经网络，它由多层非线性变换组成，每一层都负责提取输入数据的不同抽象级别的特征。

在深度学习模型中，信息通过一系列连续的层被处理，这些层可以包括卷积层、池化层、全连接层等不同类型。随着层数的增加，模型可以从简单的边缘检测逐步发展为更复杂的形状和对象识别。这使得深度学习特别适合于图像识别、语音识别、自然语言处理等领域，在这些领域内，深度学习已经取得了超越人类水平的表现。

深度学习的发展背景

深度学习的历史可以追溯到20世纪40年代关于人工神经网络的研究。但是直到近年来，由于计算资源的进步（特别是GPU）、大数据集可用性的提高以及算法上的创新，才真正推动了深度学习技术的大规模应用与发展。几个关键里程碑如下：

年份	事件/技术	描述	影响
1943	麦卡洛克-皮茨神经元模型	提出了第一个数学模型，模仿生物神经元的工作方式。	奠定了人工神经网络理论基础。
1958	感知机	弗兰克·罗森布拉特发明了感知机，这是最早的可训练的人工神经网络之一。	展示了机器可以通过简单规则从数据中学习。
1969	Minsky & Papert的批评	在《Perceptrons》一书中指出单层感知机无法解决XOR问题等局限性。	导致了第一次AI寒冬，减缓了神经网络的研究。
1970s-1980s	多层感知机与反向传播	Paul Werbos提出反向传播算法；Rumelhart, Hinton, Williams等人重新发现并推广了这一方法。	允许训练深层网络，解决了多层神经网络的学习问题。
1989	卷积神经网络 (CNN) 的概念	Yann LeCun提出了LeNet-5，这是一种用于手写数字识别的卷积神经网络架构。	开启了计算机视觉的新时代。
1990s	支持向量机 (SVM) 的兴起	Vladimir Vapnik等人开发的支持向量机在许多任务上表现优异，使得神经网络研究暂时退居二线。	减少了对复杂神经网络的需求，直到更大规模的数据集变得可用。
2006	深度信念网络 (DBN)	Geoffrey Hinton及其团队提出了无监督预训练的方法，有效初始化深层网络权重。	标志着现代深度学习时代的开始。
2012	AlexNet	在ImageNet大规模视觉识别挑战赛(ILSVRC)上取得了显著胜利，比第二名高出10.8%的准确率。	证明了深层卷积神经网络在图像分类中的强大能力。
2014	GoogLeNet (Inception)	Google团队提出的GoogLeNet引入了Inception模块，进一步提高了图像识别精度。	推动了更复杂的网络架构设计。
2015	Residual Networks (ResNets)	Kaiming He等人提出残差连接的概念，允许构建非常深的网络而不损失性能。	解决了梯度消失问题，使数百甚至数千层的网络成为可能。
2017	Transformer模型	Vaswani et al.发表了“Attention is All You Need”，介绍了一种基于自注意力机制的序列建模新方法。	对自然语言处理(NLP)产生了革命性影响。

1958年：弗兰克·罗森布拉特提出了感知机模型，这是第一个能够学习简单分类任务的人工神经网络。
1986年：杰弗里·辛顿等人引入反向传播算法，解决了训练多层神经网络时梯度消失的问题，为后来深度学习的发展奠定了基础。
2006年：辛顿提出了一种有效的无监督预训练方法来初始化深层网络权重，开启了现代深度学习时代。
2012年：AlexNet在ImageNet竞赛中的胜利标志着基于CNNs（卷积神经网络）的方法成为视觉识别任务的标准解决方案之一。

自那以后，随着硬件加速器如NVIDIA GPU的支持以及开源软件库如TensorFlow, PyTorch等的发展，深度学习开始广泛应用于各行各业，并持续推动着人工智能领域的进步。

神经网络基础

神经网络是由多个节点或“神经元”组成的计算模型，旨在模拟生物大脑的工作方式。每个神经元接收来自前一层的输入信号，通过加权求和后加上偏置项，并经过激活函数处理输出结果。常见的激活函数有Sigmoid、ReLU (Rectified Linear Unit) 和 Tanh 等。整个过程可以用数学公式表示为 𝑦=𝑓(𝑊𝑥+𝑏)y=f(Wx+b)，其中𝑊W代表权重矩阵，𝑏b是偏置向量，𝑓()f()则指代激活函数。

根据结构特点，神经网络大致可分为以下几类：