神经网络与深度学习（第一周）-CSDN博客

本文链接：https://blog.csdn.net/qq_50306953/article/details/137209583

本文介绍了神经网络的基本原理，深度学习与传统机器学习的关系，以及线性分类（如感知机和线性回归）的概念。重点阐述了多层前馈网络和BP算法，包括其优点和缺点。

摘要由CSDN通过智能技术生成

一、什么是神经网络与深度学习？

人工神经网络或简称神经网络(NN)，是从微观结构与功能上模拟人脑神经系统而建立的一类模型，是模拟人的智能的一条途径。其基本工作原理是输入数据经过一系列的加权和激活函数的处理，最终得到输出结果。在训练过程中，通过调整连接权重，使网络输出尽可能接近真实值，从而实现对复杂模式的学习和泛化。

神经网络与深度学习发展历史

深度学习（Deep Learning）是机器学习（Machine Learning）的一个研究方向，而机器学习属于人工智能（AI， Artificial Intelligence）的范畴，人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

人工智能（AI）是指将机器或计算机程序赋予类似于人类智能的能力，即可以像人一样感知、理解、学习、推理和创造。

机器学习（Machine Learning，简称ML）是人工智能中的一种方法和技术，通过让计算机从数据中学习模式和规律，从而不需要人类明确地编写特定的程序来完成任务。

深度学习（Deep Learning）是一种基于人工神经网络的机器学习技术，通过模拟人脑神经元之间的联系和活动方式，来实现对输入数据进行分析、抽象和处理的能力。

深度学习与神经网络关系

深度学习本质上是神经网络的一种。神经网络技术起源于上世纪五六十年代，当时叫感知机（perceptron），包含有输入层、输出层和隐藏层。含多个隐藏层的多层感知器就是一种深度学习结构，深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。

深度学习的发展历程可以参考下图，由单层感知机逐渐发展出RNN, CNN等。

二、线性分类与感知机

2.1 线性回归

定义：利用数理统计中回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法

线性回归要素：

1.房屋销售记录表：训练集(training set)或者训练数据(training data), 是我们流程中的输入数据，一般称为𝑥

2.房屋销售价钱：输出数据，一般称为𝑦

3.拟合的函数（或者称为假设或者模型）：一般写做 𝑦 = ℎ(𝑥)；如果是直线，则为𝑦 = 𝑘𝑥 + 𝑏

4.训练数据的条目数(#training set)：一条训练数据是由一对输入数据和输出数据组成的，输入数据的维度𝑛 (特征的个数， #features)

2.2 线性分类

定义：线性分类器则透过特征的线性组合来做出分类决定，以达到此种目的。简言之，样本通过直线(或超平面)可分

线性分类器输入：特征向量输出：哪一类。如果是二分类问题，则为0和1，或者是属于某类的概率，即0-1之间的数。

线性分类与线性回归差别：

输出意义不同：属于某类的概率回归具体值

参数意义不同：最佳分类直线最佳拟合直线

维度不同：前面的例子中，一个是一维的回归，一个是二维的分类

2.3 对数回归与多分类回归

对数回归是一种广义的线性模型，用于解决二分类和多分类问题，通过使用对数几率函数将线性模型的输出转化为概率。

对数回归：对数回归是一种广义线性模型，用于建模二分类问题的概率。对于二分类问题，对数几率函数的表达式为：

Softmax 函数： Softmax 函数是多分类问题中常用的激活函数，它将模型的原始输出转化为表示概率分布的形式。

损失函数：对于多分类问题，常用的损失函数包括交叉熵损失函数和多分类支持向量机损失函数，这些损失函数在训练过程中帮助模型优化参数以最小化分类错误。

2.4 神经元模型

作用函数：

2.5 感知机模型

感知机(Perceptron)是1957年，由Rosenblatt提出，是神经网络和支持向量机的基础。感知机解决线性分类问题

1.线性回归和线性分类本质上都是参数优化问题。分类问题中引入 Sigmoid函数，因此需通过迭代求解参数优化

2.神经元基本数学模型为M-P模型，通过Hebb规则实现连接权的动态变化

3.感知机可以自动迭代完成线性分类任务

三、多层前馈网络与误差反传算法

3.1 多层感知机

在输入和输出层间加一或多层隐单元，构成多层感知器（多层前馈神经网络）加一层隐节点（单元）为三层网络，可解决异或（XOR）问题由输入得到两个隐节点、一个输出层节点的输出：

三层感知器可识别任一凸多边形或无界的凸区域。更多层感知器网络，可识别更为复杂的图形。多层感知器网络，有如下定理：定理1 若隐层节点（单元）可任意设置，用三层阈值节点的网络，可以实现任意的二值逻辑函数。定理2 若隐层节点（单元）可任意设置，用三层S型非线性特性节点的网络，可以一致逼近紧集上的连续函数或按范数逼近紧集上的平方可积函数。

3.2 多层前馈网络及BP算法概述

多层感知机是一种多层前馈网络，由多层神经网络构成，每层网络将输出传递给下一层网络。神经元间的权值连接仅出现在相邻层之间，不出现在其他位置。如果每一个神经元都连接到上一层的所有神经元（除输入层外），则成为全连接网络。下面讨论的都是此类网络。

多层前馈网络的反向传播（BP）学习算法，简称BP算法，是有导师的学习，它是梯度下降法在多层前馈网中的应用。网络结构：见图，𝐮（或𝐱 ）、𝐲是网络的输入、输出向量，神经元用节点表示，网络由输入层、隐层和输出层节点组成，隐层可一层，也可多层（图中是单隐层），前层至后层节点通过权联接。由于用BP学习算法，所以常称BP神经网络。

已知网络的输入/输出样本，即导师信号 ➢ BP学习算法由正向传播和反向传播组成： ① 正向传播是输入信号从输入层经隐层，传向输出层，若输出层得到了期望的输出，则学习算法结束；否则，转至反向传播。 ② 反向传播是将误差(样本输出与网络输出之差）按原联接通路反向计算，由梯度下降法调整各层节点的权值和阈值，使误差减小。

算法优点：

1.学习完全自主，BP算法通过反向传播误差来调整神经网络的权重和偏置，使得网络能够根据输入数据自主学习特征和模式，无需手动设计特征提取器。

2.可逼近任意非线性函数：多层神经网络通过堆叠多个非线性激活函数，可以逼近任意复杂的非线性函数，从而具有强大的拟合能力，适用于各种复杂的数据模式

算法缺点：

1.非全局收敛，BP算法容易陷入局部极小值，无法保证收敛到全局最优解，这可能导致训练得到的模型性能较差.

2.收敛速度慢，BP算法通常需要进行大量的迭代才能收敛到满意的解，尤其是在深层网络或大规模数据集上，训练时间较长

3. 学习速率选择问题；

4.神经网络设计问题。