全连接神经网络（MLP)

awigu

已于 2023-02-24 12:47:22 修改

阅读量3.1k

点赞数

分类专栏：神经网络文章标签：神经网络深度学习

于 2023-02-24 11:08:38 首次发布

本文链接：https://blog.csdn.net/awigu/article/details/128688667

版权

神经网络专栏收录该内容

1 篇文章 0 订阅

订阅专栏

@[TOC]全连接神经网络（MLP)

1 深度学习概述

深度学习是机器学习领域中的一个新的研究方向，模仿生人类神经网络，学习样本数据的内在规律的一种方法，可以处理回归、分类等问题。深度学习主要框架：Pytorch、Tensorflow、Mindspore等。

2 单个神经元

已知一个样本 $(x, y)$ ，其中样本的维度 $x\in \mathbb{R}^{n}$ 。每个神经元由线性变换 $z=w^{T}x+b$ 和非线性变换 $\sigma (z)$ 组成，如图所示。
单个神经元
当一个样本 $x=\begin{pmatrix} x^{(1)}\\ x^{(2)}\\ \vdots \\ x^{(n)}\\ \end{pmatrix}$ 输入一个神经元时，首先对该样本进行线性变换，即 $z=w^{T}x+b=w_{1}x^{(1)}+w_{2}x^{(2)}+\cdots +w_{n}x^{(n)}+b$ ，其中 $w=\begin{pmatrix} w^{(1)}\\ w^{(2)}\\ \vdots \\ w^{(n)}\\ \end{pmatrix}$ 为权重向量， $b$ 为偏置标量；然后进行非线性变换，即 $\hat{y}=\sigma (z)$ ，其中 $\sigma$ 为激活函数。激活函数主要包括sigmoid、tanh、Relu等，如图所示。
(1) $Sigmoid(z)=\frac{1}{1+e^{-z}}$
sigmoid
(2) $Tanh(z)=\frac{e^{z}-e^{-z}}{e^{z}+e^{-z}}$
tanh
(3) $Relu(z)=\left\{\begin{matrix} max(0,z),z\geq 0\\ 0,z< 0 \\ \end{matrix}\right.$
Relu

3 全连接神经网络

3.1 回归任务

全连接神经网络由输入层、隐藏层和输出层组成。N层神经网络=隐藏层总数+输出层，例如2层神经网络=1个隐藏层+1个输出层。用全连接神经网络实现回归问题，结构如图：

假设一个样本 $x_{1\times n}$ 作为输入层，经过隐藏层和输出层，得到预测结果 $\hat{y}$ ,用矩阵表示：
(1)隐藏层： $z_{1\times 5}=\sigma (x_{1\times n}W^{(1)}_{n\times 5}+b^{(1)}_{1\times 5})$
(2)输出层： $\hat{y}_{1\times 1}=\sigma (z_{1\times 5}W^{(2)}_{5\times 1}+b^{(2)}_{1\times 1})$
假设batch_size个样本 $x_{b\times n}$ 作为输入层，经过隐藏层和输出层，得到预测结果 $\hat{y}_{b\times 1}$ ,用矩阵表示：
(1)隐藏层： $z_{b\times 5}=\sigma (x_{b\times n}W^{(1)}_{n\times 5}+b^{(1)}_{b\times 5})$
(2)输出层： $\hat{y}_{b\times 1}=\sigma (z_{b\times 5}W^{(2)}_{5\times 1}+b^{(2)}_{b\times 1})$
比较样本预测值 $\hat{y}_{b\times 1}$ 和真实值 $y_{b\times 1}$ 的误差可以用平均绝对误差(Mean Absolute Error,MAE)、均方误差(Mean Square Error,MSE)和均方根误差(Root Mean Square Error,RMSE)等。
(1) $MAE=\frac{1}{b}\sum_{i=1}^{b}\left | y_{j}-\hat{y_{j}} \right |$
(2) $MSE=\frac{1}{b}\sum_{i=1}^{b}(y_{j}-\hat{y_{j}})^{2}$
(3) $RMSE=\sqrt{\frac{1}{b}\sum_{i=1}^{b}(y_{j}-\hat{y_{j}})^{2}}$

3.2 分类任务

当用全连接神经网络实现多分类问题，需要知道每个样本为每个类别的概率是多少，这时可以在输出层后面接入softmax函数。softmax是先对每个输出 $p_{j}$ 进行 $e^{x}$ 指数函数变换，然后进行归一化处理，最终输出每个类别的概率值，结构如图：
在这里插入图片描述假设数据集分为3类，则输出层包括3个神经元。将一个样本 $x_{1\times n}$ 作为输入层，经过隐藏层和输出层，得到预测分布为 $p_{1}$ ， $p_{2}$ 和 $p_{3}$ ，最后经过softmax层进行归一化，将该样本的预测分布变为 $\hat{y}_{1}$ ， $\hat{y}_{2}$ 和 $\hat{y}_{3}$ 。用矩阵表示：
(1)隐藏层： $z_{1\times 5}=\sigma (x_{1\times n}W^{(1)}_{n\times 5}+b^{(1)}_{1\times 5})$
(2)输出层： $p_{1\times 3}=\sigma (z_{1\times 5}W^{(2)}_{5\times 3}+b^{(2)}_{1\times 3})$
(3)softmax层： $\hat{y}_{1\times 3}=softmax(p_{1 \times 3})$
假设batch_size个样本 $x_{b\times n}$ 作为输入层，经过隐藏层和输出层，得到预测结果 $\hat{y}_{b\times 3}$ ,用矩阵表示：
(1)隐藏层： $z_{b\times 5}=\sigma (x_{b\times n}W^{(1)}_{n\times 5}+b^{(1)}_{b\times 5})$
(2)输出层： $p_{b\times 3}=\sigma (z_{b\times 5}W^{(2)}_{5\times 3}+b^{(2)}_{b\times 3})$
(3)softmax层： $\hat{y}_{b\times 3}=softmax(p_{b \times 3})$
比较样本的预测分布 $\hat{y}_{b\times 3}$ 和真实分布 $y_{b\times 3}$ 的误差可以用交叉熵度量。
例如：batch_size为4，待分类标签有3个，其中预测分布 $\hat{y}_{4\times 3}=\begin{pmatrix} 0.3341& 0.5851& 0.0808\\ 0.5428& 0.1770& 0.2803\\ 0.2821& 0.1665& 0.5515\\ 0.1966& 0.4835& 0.3199 \end{pmatrix}$ ，真实分布 $y_{4\times 3}=\begin{pmatrix} 0& 1& 0\\ 1& 0& 0\\ 0& 0& 1\\ 0& 1& 0 \end{pmatrix}$ 。因此，batch_size的损失函数Loss是batch_size的平均Loss，即 $L oss = - [l o g 0.5851 + l o g 0.5428 + l o g 0.5515 + l o g 0.4835] /4$ 。