目录
1.深度神经网络(Deep Neural Network, DNN)
2.卷积神经网络(Convolutional Neural Network, CNN)
3.残差网络(Residual Network, ResNet)
4.长短时记忆网络(Long Short-Term Memory, LSTM)
7.生成对抗网络(Generative Adversarial Network, GAN)
1.深度神经网络(Deep Neural Network, DNN)
深度神经网络(Deep Neural Network, DNN)是一种人工神经网络模型,其显著特征在于拥有多层非线性处理单元(神经元),这些单元按照层级结构堆叠起来,形成一个深度的计算模型。DNN与浅层神经网络(如单隐层神经网络)的主要区别在于其包含的隐藏层数量更多,这使得DNN能够学习和表达更复杂的、多层次的抽象特征,从而在解决许多复杂问题上展现出卓越的能力。
基础型深度学习模型,由多层神经元组成,包括输入层、多隐藏层和输出层。隐藏层间的非线性变换使得DNN能够学习复杂的数据表示和抽象特征。DNN应用于语音识别、自然语言处理、计算机视觉等多种任务,但对大规模数据和计算资源需求较高。其结构如下所示:
2.卷积神经网络(Convolutional Neural Network, CNN)
卷积神经网络(Convolutional Neural Network, CNN)是一种特殊的深度神经网络,专为处理具有网格结构(如图像、视频、音频波形、序列数据等)的数据而设计。
CNN特别适合处理图像、视频等具有网格结构的数据。主要特征包括卷积层(利用可学习的滤波器提取局部特征)、池化层(降低维度并保持重要信息)、全连接层(进行全局分类或回归)。其结构如下所示:
CNN在图像分类、物体检测、语义分割等领域表现出色,其局部感受野和权值共享特性降低了模型参数量,提高了计算效率。
3.残差网络(Residual Network, ResNet)
ResNet是一种深度CNN变体,通过引入“残差块”(Residual Block)解决了深层网络训练中的梯度消失和爆炸问题。残差块包含短路连接,允许信号直接从较浅层传递到较深层,使得深度网络更容易优化。ResNet结构如下图所示:
在图像识别、目标检测、语义分割等方面取得了突破性成果,并广泛应用于各类视觉任务。
4.长短时记忆网络(Long Short-Term Memory, LSTM)
LSTM是一种特殊的循环神经网络(Recurrent Neural Network, RNN),专为处理序列数据(如时间序列、文本)设计。LSTM通过引入细胞状态和门控机制(输入门、遗忘门、输出门)来捕捉长期依赖关系,克服了传统RNN在处理长距离依赖时的局限性。结构如下:
应用于语音识别、机器翻译、自然语言理解、情感分析、时间序列预测等任务。
5.Word2Vec
词嵌入(Word Embedding)方法,将词语映射为稠密向量,捕捉词汇之间的语义和句法关系。包括CBOW(Continuous Bag-of-Words)和Skip-Gram两种模型,分别基于上下文预测中心词和中心词预测上下文。生成的词向量能有效提升后续自然语言处理任务(如分类、问答、语义相似度计算)的性能。Word2Vec结构如下图所示:
6.Transformer
结构完全基于注意力机制(Attention Mechanism)的序列建模架构,抛弃了RNN/LSTM的循环结构。具有并行计算优势,大大加快了训练速度;多头注意力机制捕获输入序列的不同表示子空间。在机器翻译(如Google的Transformer论文)、文本分类、问答系统、文本生成等领域取得革命性进展,是现代NLP模型(如BERT、GPT系列)的基础。Transformer结构如下:
7.生成对抗网络(Generative Adversarial Network, GAN)
GAN由生成器(Generator)和判别器(Discriminator)两部分构成的框架,二者相互博弈训练。生成器学习生成逼真的数据样本,判别器学习区分真实数据与生成数据。应用于图像生成(包括高清图像、风格迁移、人脸合成等)、数据增强、图像修复、音视频生成等多个领域。
8.Diffusion Diffusion模型
近年来兴起的一种生成模型,基于扩散过程逐步将高斯噪声转化为数据样本可以用于图像生成、图像编辑、音频合成、3D形状生成等任务,以其高质量生成效果和可控性受到关注。相比GANs,训练更稳定,能够生成更加多样且精细的结果。