神经网络与深度学习（笔记一）

毛懒懒

已于 2023-03-19 23:08:54 修改

阅读量166

点赞数

文章标签：神经网络深度学习 Powered by 金山文档

于 2023-03-19 23:06:17 首次发布

本文链接：https://blog.csdn.net/m0_51445530/article/details/129656077

版权

本文介绍了线性回归的基本原理，包括模型定义、损失函数和求解方法。接着讨论了线性分类，特别是二分类问题的解决策略。文章还涵盖了神经元模型和多层感知机的概念，以及反向传播（BP）算法在权重调整中的应用。最后，讨论了优化算法，如随机梯度下降及其变种，包括动量法、自适应梯度算法（如AdaGrad、RMSProp和Adam），这些算法解决了训练过程中的收敛问题。

摘要由CSDN通过智能技术生成

一、线性回归

定义

回归（regression）是能为⼀个或多个⾃变量与因变量之间关系建模的⼀类⽅法。在⾃然科学和社会科学领域，回归经常⽤来表⽰输⼊和输出之间的关系。线性回归基于几个简单的假设：⾸先，假设⾃变量x和因变量y之间的关系是线性的，即y可以表示为x中元素的加权和，这⾥通常允许包含观测值的⼀些噪声；其次，假设任何噪声都⽐较正常，如噪声遵循正态分布。目标可以表示为特征的加权和，即

转换为矩阵形式

求解

在求解之前，定义模型拟合的度量——损失函数

为了度量模型在整个数据集上的质量，需计算在训练集n个样本上的损失均值（也等价于求和）

求解的过程即是寻找⼀组参数（w∗ , b∗），以最小化在所有训练样本上的总损失。线性回归的参数优化较为简单，模型参数具有解析解。

⾸先，将偏置b合并到参数w中，合并⽅法是在包含所有参数的矩阵中附加⼀列。预测问题是最小化 $\text{[math]}$ 。这在损失平⾯上只有⼀个临界点，这个临界点对应于整个区域的损失极⼩点。将损失关于w的导数设为0，得到解析解：

二、线性分类

定义

线性分类器透过特征的线性组合来做出分类决定，以达到此种目的。简言之，样本通过直线(或超平面)可分。

线性分类器输入为特征向量，输出为类别信息。线性分类与线性回归的不同之处在于输出意义不同，前者输出属于某类的概率，后者输出回归具体值，参数意义不同，前者在于得到最佳分类直线，后者在于得到最佳拟合直线，以及维度的不同。

求解

以二分类为例，同时给定样本 $\text{[math]}$ ，其中 $\text{[math]}$ 只能取0或1。构造误差函数如下

其中，

优化目标为寻找最佳超平面参数 $\text{[math]}$ ，使误差函数 $\text{[math]}$ 最小。

梯度下降法

由于 $\text{[math]}$ 具有非线性，因而考虑迭代法使得 $\text{[math]}$ 逐渐趋近于0，即

其中，

多分类回归

k分类的分类函数为

其中，

误差函数（交叉熵损失）取为

简写为，

对应的梯度为

这种回归方式又被称为Softmax回归。

三、神经元模型

人工神经元模型

激活函数

非对称型Sigmoid函数

对称型Sigmoid函数

对称型阶跃函数（阈值逻辑单元）

四、多层感知机

结构

在线性模型中加⼊⼀个或多个隐藏层来克服线性模型的限制，使其能处理更普遍的函数关系类型。将许多全连接层堆叠在⼀起。每⼀层都输出到上⾯的层，直到⽣成最后的输出。把前L−1层看作表⽰，把最后⼀层看作线性预测器。这种架构通常称为多层感知机（multilayer perceptron, MLP），如下图所示。

这个多层感知机有4个输⼊，3个输出，其隐藏层包含5个隐藏单元。输⼊层不涉及任何计算，因此使⽤此⽹络产⽣输出只需要实现隐藏层和输出层的计算。因此，这个多层感知机中的层数为，2为全连接的。每个输⼊都会影响隐藏层中的每个神经元，⽽隐藏层中的每个神经元⼜会影响输出层中的每个神经元。

计算规则

通过矩阵 $\text{[math]}$ 来表示n个样本的⼩批量，其中每个样本具有d个输⼊特征。对于具有h个隐藏单元的单隐藏层多层感知机，⽤ $\text{[math]}$ 表⽰隐藏层的输出，称为隐藏表示。因为隐藏层和输出层都是全连接的，所以隐藏层权重 $\text{[math]}$ 和隐藏层偏置 $\text{[math]}$ 以及输出层权重 $\text{[math]}$ 和输出层偏置 $\text{[math]}$ 。单隐藏层多层感知机的输出 $\text{[math]}$