多层感知机（MLP）

这个函数可导

已于 2024-04-02 12:45:18 修改

阅读量1.1k

点赞数 13

分类专栏：深度学习文章标签：深度学习机器学习人工智能

于 2024-04-02 12:20:59 首次发布

本文链接：https://blog.csdn.net/qq_62573714/article/details/137261896

版权

深度学习专栏收录该内容

18 篇文章 1 订阅

订阅专栏

本文介绍了多层感知机的基本概念，强调了引入隐藏层和激活函数的重要性，指出无激活函数时模型变为线性，而添加非线性则使其更具表达能力。文章还讨论了多层结构和堆叠隐藏层以增强模型复杂性和性能。

摘要由CSDN通过智能技术生成

文章目录

前言

该文章用来记录本人在学习《动手学深度学习》这本书的 4.1多层感知机一节的笔记。

多层感知机是在单层神经网络的基础上引入一个或多个隐藏层，使神经网络有多个网络层，并通过激活函数转换隐藏层的输出。如果多层感知机没有激活函数转换隐藏层的输出，那么多层感知机将退化成线性模型。为此，为了发挥多层架构的潜力，我们在仿射变换之后对每个隐藏单元应用非线性的激活函数。此外，为了构建更通过的多层感知机，我们可以叠加多个隐藏层，从而产生更有表达能力的模型。

多层感知机

什么是多层感知机？

多层感知机（MLP，Multilayer Perceptron）也叫人工神经网络（ANN，Artificial Neural Network）：在单层神经网络的基础上引入一个或多个隐藏层，使神经网络有多个网络层，并通过激活函数转换隐藏层的输出，因而称为多层感知机。

在这里插入图片描述
这个多层感知机有4个输入，3个输出，其隐藏层包含5个隐藏单元。输入层不涉及任何计算，因此使用此网络产生输出只需要实现隐藏层和输出层的计算。因此，这个多层感知机中的层数为2。

注意，这两个层都是全连接的。每个输入都会影响隐藏层中的每个神经元，而隐藏层中的每个神经元又会影响输出层中的每个神经元。

从线性到非线性

引例

假设矩阵 $\mathbf{X}\in\mathbb{R}^{n\times d}$ 来表示 $n$ 个样本的小批量，其中每个样本具有 $d$ 个输入特征。
对于具有 $h$ 个隐藏单元的单隐藏层多层感知机，用 $\mathbf{H}\in\mathbb{R}^{n\times h}$ 表示隐藏层的输出， $H$ 称为隐藏表示（也称为隐藏层变量或隐藏变量）。
因为隐藏层和输出层都是全连接的，所以我们有隐藏层权重 $\mathbf{W}^{(1)}\in\mathbb{R}^{d\times h}$ 和隐藏层偏置 $\mathbf{b}^{(1)}\in\mathbb{R}^{1\times h}$ 以及输出层权重 $\mathbf{W}^{(2)}\in\mathbb{R}^{h\times q}$ 和输出层偏置 $\mathbf{b}^{(2)}\in\mathbb{R}^{1\times q}$ 。
形式上，我们按如下方式计算单隐藏层多层感知机的输出 $\mathbf{O}\in\mathbb{R}^{n\times q}$ ：
$\begin{aligned}\mathbf{H}&=\mathbf{X}\mathbf{W}^{(1)}+\mathbf{b}^{(1)}\\\mathbf{O}&=\mathbf{H}\mathbf{W}^{(2)}+\mathbf{b}^{(2)}\end{aligned}$
令 $\mathbf{W}=\mathbf{W}^{(1)}\mathbf{W}^{(2)}$ ， $\mathbf{b}=\mathbf{b}^{(1)}\mathbf{W}^{(2)}+\mathbf{b}^{(2)}$ ，则
$\mathbf{0}=(\mathbf{X}\mathbf{W}^{(1)}+\mathbf{b}^{(1)})\mathbf{W}^{(2)}+\mathbf{b}^{(2)}=\mathbf{X}\mathbf{W}^{(1)}\mathbf{W}^{(2)}+\mathbf{b}^{(1)}\mathbf{W}^{(2)}+\mathbf{b}^{(2)}=\mathbf{X}\mathbf{W}+\mathbf{b}$

无激活函数的情况

从引例可以看出，若多层感知机没有激活函数转换隐藏层的输出（即 $\mathbf{H}=\mathbf{X}\mathbf{W}^{(1)}+\mathbf{b}^{(1)}$ ），多层感知机退化成线性模型。

有激活函数的情况

为了发挥多层架构的潜力，我们还需要一个额外的关键要素：在仿射变换之后对每个隐藏单元应用非线性的
激活函数（activationfunction） $σ$ 。

激活函数的输出（例如， $σ (\cdot)$ ）被称为活性值（activations）。

一般来说，有了激活函数，就不可能再将我们的多层感知机退化成线性模型：
$\begin{aligned}\mathbf{H}&=\sigma(\mathbf{X}\mathbf{W}^{(1)}+\mathbf{b}^{(1)})\\\mathbf{O}&=\mathbf{H}\mathbf{W}^{(2)}+\mathbf{b}^{(2)}\end{aligned}$

延伸

为了构建更通用的多层感知机，我们可以继续堆叠这样的隐藏层，例如 $\mathsf{H}^{(1)}=\sigma_{1}(\mathbf{XW}^{(1)}+\mathbf{b}^{(1)})$ 和 $\mathsf{H}^{(2)}=\sigma_2(\mathbf{H}^{(1)}\mathbf{W}^{(2)}+\mathbf{b}^{(2)})$ ，一层叠一层，从而产生更有表达能力的模型。

这个函数可导

关注

13
点赞
踩
20

收藏

觉得还不错? 一键收藏
1
评论
多层感知机（MLP）

多层感知机是在单层神经网络的基础上引入一个或多个隐藏层，使神经网络有多个网络层，并通过激活函数转换隐藏层的输出。如果多层感知机没有激活函数转换隐藏层的输出，那么多层感知机将退化成线性模型。为此，为了发挥多层架构的潜力，我们在仿射变换之后对每个隐藏单元应用非线性的激活函数。此外，为了构建更通过的多层感知机，我们可以叠加多个隐藏层，从而产生更有表达能力的模型。
复制链接

扫一扫