浅入深度学习

最新推荐文章于 2024-04-01 15:31:51 发布

69岁的老干部

最新推荐文章于 2024-04-01 15:31:51 发布

阅读量322

点赞数

分类专栏：深度学习文章标签：深度学习神经网络机器学习

本文链接：https://blog.csdn.net/m0_53359491/article/details/124984415

版权

深度学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文介绍了神经网络的基础知识，包括神经元、激活函数和损失函数的作用。接着详细讲解了单层和多层感知机模型，以及它们在分类任务中的应用。最后，讨论了参数优化过程，特别是梯度下降和反向传播算法在模型训练中的作用，以提高神经网络的预测准确性。

摘要由CSDN通过智能技术生成

一、若干基本概念

二、感知机模型

三、参数优化与学习

一、若干基本概念

在正式介绍前馈神经网络前，先介绍神经元、激活函数、输出单元及损失函数的一些基本概念。

1.神经元

在生物学中，神经元细胞有兴奋与抑制两种状态。大多数神经元细胞在正常情况下处于抑制状态，一旦某个神经元受到刺激并且电位超过一定的阈值后，这个神经元细胞就被激活，处于兴奋状态，并向其他神经元传递信息。基于神经元细胞的结构特性与信息传递方式，神经科学家Warren McCulloch 和逻辑学家 Walter Pitts 合作提出了“McCulloch-Pitts(MCP)neuron”模型。在人工神经网络中，MCP模型成为最基本的结构。其结构如下：

由图可见，给定n个2值化（0或1）的输入数据xi ，与连接参数wi，MCP神经元模型对输入数据线性加权求和，然后使用函数将加权结果映射为0或1，以完成二分类任务：

其中wi为预先设定的连接权重值（一般在0和1中去一个值或者-1和1中取一个值），用来表示其所对应输入数据对输出结果的影响（即权重）。输出中的函数将输入端数据与权重所得线性加权累加结果与预先设定阈值比较，根据比较结果输出-1或1。也就是说线性累加结果大于阈值，则神经元细胞处于兴奋状态，向后传递1的信息，否则该神经元细胞处于抑制状态而不向后传递信息。

2.激活函数

在现实世界中，“非线性” 是世界万事万物运转的魂魄，Enrico Fermi 曾经说过，“圣经中并没有说过一切大自然的定律都可以用线性方程来表示”，线性系统实际上只是对少数简单非线性系统的理论近似。将神经网络用于分类任务，需要将输入数据（如图像、文本和听觉等信息）映射到其语义空间（如人脸、感情和旋律等），这一过程就是一个复杂的非线性变换。

神经网络使用非线性函数作为激活函数（activation function），通过对多个非线性函数进行组合，来实现对输入信息的非线性变换。为了能够使用梯度下降方法来训练神经网络参数，激活函数必须是连续可导的。

3.损失函数

损失函数（loss function）又称为代价函数（cost function），是用来计算模型预测值与真实值之间的误差。损失函数是神经网络设计中的一个重要组成部分。通过定义与任务相关的良好损失函数，在训练过程中可根据损失函数来计算神经网络的误差大小，进而优化神经网络参数。

二、感知机模型

1.单层感知机

1957年 Frank Rosenblatt 提出来一种简单的人工神经网络，被称之为感知机。早期的感知机模型和MCP模型相似，由一个输入层和一个输出层构成，因此也被称为“单层感知机”。感知机的输入层负责接收实数值的向量，输出层则能输出1或-1两个值。单层感知机可作为一种两类两类线性分类模型。其结构图如下：

2.多层感知机

由于无法模拟诸如异或以及其他复杂函数的功能，单层感知机的应用较为单一。一个简单的想法是，如果能在感知机模型中增加若干隐藏层，增强神经网络的非线性表达能力，就会让神经网络具有更强拟合能力。因此，包含多个隐藏层的多层感知机模型被提出。

如下图所示，多层感知机有输入层、输出层和至少一层的隐藏层构成。网络中各个隐藏层中的神经元可以接收相邻前序隐藏层中所有神经元传递而来的信息，经过加工处理后将信息输出给相邻后续隐藏层中所有神经元。

在多层感知机中，相邻层的神经元之间通常使用“全连接”方式进行连接。所谓“全连接”是指两个相邻层之间的神经元相互成对连接，但同一层内神经元之间没有连接。多层感知机可以模拟复杂非线性函数功能，所模拟函数的复杂性取决于网络隐藏层数目和各层中神经元数目。

三、参数优化与学习

在设计完成一个多层神经网络的结构后（如多少个隐藏层，每个隐藏层中包含的神经元数目以及神经元所采用的非线性激活函数等），需要对神经网络中的参数（即相邻层中神经元和神经元之间的连接权重系数等）进行优化学习，以使得神经网络能够将给定输入数据映射到所期望的输出语义空间（如将一幅像素点构成的图像数据映射为人脸），完成分类识别等任务。

神经网络参数优化是一个监督学习的过程。给定n个标注样本数据（xi,yi）这里xi是输入数据，yi是xi的类别标注等信息。假设输入数据xi经过神经网络处理后所得输出预测值为^yi，则可通过损失函数来计算模型预测值^yi与真实值yi之间误差或损失，利用其来优化模型参数，以便让神经网络按照xi的真实信息yi输出，即让神经网络来拟合数据（data fitting）。

具体而言，模型会利用反向传播算法将损失函数计算所得误差从输出端出发，由后向前传递给神经网络中的每个单元，然后通过梯度下降算法对神经网络中的参数进行更新。随着迭代的进行，模型预测所得^yi与真实值yi之间的误差逐步缩小，模型预测准确率逐步提升，预测的能力逐渐增强，当迭代经过一定轮次或准确率达到一定水平时，则可认为模型参数已被优化完毕。

1.梯度下降法

梯度下降算法（gradident descent）是机器学习中对模型参数进行优化时所采用的常用方法。为了让模型预测结果与真实结果之间的损失误差最小，利用梯度下降法来逐步迭代优化模型参数。当损失误差最小后，此时所学习得到的模型参数即为模型的最优参数。

损失函数梯度的反方向是损失误差下降最快的方向。

2.反向传播

反向传播算法（back propagation）主要利用损失函数来计算模型预测结果与真实结果之间的误差以优化调整模型参数，这一优化调整机制是从输出端向输入端，由后向前递进进行。