全连接层和激活层

1. 全连接层

经过前面若干次卷积+激励+池化后,终于来到了输出层,模型会将学到的一个高质量的特征图片全连接层。其实在全连接层之前,如果神经元数目过大,学习能力强,有可能出现过拟合。因此,可以引入dropout操作,来随机删除神经网络中的部分神经元,来解决此问题。还可以进行局部归一化、数据增强等操作,来增加鲁棒性。

当来到了全连接层之后,可以理解为一个简单的多分类神经网络(如:BP神经网络),通过softmax函数得到最终的输出。整个模型训练完毕。

两层之间所有神经元都有权重连接,通常全连接层在卷积神经网络尾部。也就是跟传统的神经网络神经元的连接方式是一样的: 

 https://images2018.cnblogs.com/blog/1226410/201809/1226410-20180910194649765-666983892.png

全连接层(fully connected layersFC)在整个卷积神经网络中起到“分类器”的作用。如果说卷积层、池化层和激活函数层等操作是将原始数据映射到隐层特征空间的话,全连接层则起到将学到的“分布式特征表示”映射到样本标记空间的作用。

全连接的核心操作就是矩阵向量乘积:

y=W*x

本质就是由一个特征空间线性变换到另一个特征空间。目标空间的任一维——也就是隐层的一个 cell——都认为会受到源空间的每一维的影响。不考虑严谨,可以说,目标向量是源向量的加权和。

2.激活函数

所谓激活函数(Activation Function),就是在人工神经网络的神经元上运行的函数,负责将神经元的输入映射到输出端。

激活函数(Activation functions)对于人工神经网络 [1]  模型去学习、理解非常复杂和非线性的函数来说具有十分重要的作用。它们将非线性特性引入到我们的网络中。如图1,在神经元中,输入的 inputs 通过加权,求和后,还被作用了一个函数,这个函数就是激活函数。引入激活函数是为了增加神经网络模型的非线性。没有激活函数的每层都相当于矩阵相乘。就算你叠加了若干层之后,无非还是个矩阵相乘罢了。

24e33efd665540310543cd7109ba7ac7d47.jpg

如果不用激活函数,每一层输出都是上层输入的线性函数,无论神经网络有多少层,输出都是输入的线性组合,这种情况就是最原始的感知机Perceptron)。

如果使用的话,激活函数给神经元引入了非线性因素,使得神经网络可以任意逼近任何非线性函数,这样神经网络就可以应用到众多的非线性模型中。 

2.1 常用的激活函数

2.1.1 Sigmoid函数

Sigmoid函数是一个在生物学中常见的S型函数,也称为S型生长曲线。在信息科学中,由于其单增以及反函数单增等性质,Sigmoid函数常被用作神经网络的阈值函数,将变量映射到0,1之间 [2]  。公式如下

https://gss2.bdstatic.com/-fo3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D101/sign=18c3b100f11f4134e437017e141d95c1/962bd40735fae6cdc554878203b30f2443a70f74.jpg

函数图像如下

aa2ba1f13fc16843697803ee435088dbba7.jpg

2.1.2 Tanh函数

Tanh是双曲函数中的一个,Tanh()为双曲正切。在数学中,双曲正切“Tanh”是由基本双曲函数双曲正弦和双曲余弦推导而来。公式如下

https://gss0.bdstatic.com/-4o3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D106/sign=7f2eb2a43512b31bc36cc929b0193674/09fa513d269759ee31ce4e28befb43166c22dfb2.jpg

函数图像如下

04b50f78bbc4515d9c161d3af602715224e.jpg

  2.1.3 ReLU函数

Relu激活函数(The Rectified Linear Unit),用于隐层神经元输出。公式如下

https://gss1.bdstatic.com/-vo3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D117/sign=eb8624203687e9504617f76d2739531b/9a504fc2d5628535b85bf9c29cef76c6a6ef639d.jpg

函数图像如下 

c252002a9eb4ee8628a2eb2c9624e7fc29b.jpg

这里要着重提一下Relu激活函数,它与其他激活函数最大的不同在于它是线性的,因而不存在梯度爆炸的问题,在多层网络结构下梯度会线性传递。

在深度学习中Relu是用的最广泛的一种激活函数。

 

转载于:https://my.oschina.net/u/778683/blog/3098196

<think>嗯,用户想了解全连接层中的激活函数及其应用场景。首先,我需要回顾全连接层的基本概念。全连接层是神经网络中的基础结构,每个输入节点都连接到输出节点,通过权重矩阵偏置向量进行线性变换。但如果没有激活函数,全连接层只能进行线性变换,无法处理非线性问题,就像感知机一样。所以激活函数在这里的作用至关重要。 接下来,我得列举常用的激活函数,比如Sigmoid、Tanh、ReLU、Leaky ReLUSoftmax。每个激活函数的特点、数学表达式应用场景需要详细说明。比如,Sigmoid适合二分类问题,但存在梯度消失的问题;ReLU在隐藏层中广泛使用,因为它缓解了梯度消失,但可能有死神经元的问题。 然后,应用场景部分需要结合引用中的内容。比如,计算机视觉中使用ReLU,自然语言处理中可能用Tanh或ReLU,GAN中生成器判别器的激活函数选择,推荐系统中的MLP等。需要确保引用对应的引用标记正确,比如引用[4]提到了这些应用场景。 用户的问题还涉及全连接层、激活函数使用场景,所以需要将两者结合起来。例如,全连接层在图像分类的最后一层可能用Softmax,中间层用ReLU。同时,要注意激活函数如何赋予网络非线性能力,如引用[1][2]所述。 可能还需要考虑用户的实际需求,比如他们可能在设计神经网络时遇到选择激活函数的困惑,或者想了解不同场景下的最佳实践。因此,回答需要结构清晰,分点说明,并生成相关的问题帮助用户进一步学习。 最后,检查LaTeX格式是否正确,所有数学表达式用$...$或$$...$$,引用标记是否正确添加。例如,激活函数的作用部分引用[1][2][3],应用场景部分引用[4]。确保回答用中文,语法正确,没有使用Markdown格式。</think>### 全连接层中的激活函数及其应用场景 #### 一、全连接层与激活函数的关系 全连接层(Fully-connected Layer)是神经网络的基础组件,通过权重矩阵$W$偏置向量$b$实现输入到输出的线性变换: $$ y = Wx + b $$ 但若没有激活函数,多层全连接层等效于单层线性变换,无法解决非线性问题[^1][^3]。激活函数通过引入非线性特性,使得神经网络能够逼近任意复杂函数[^2][^4]。 #### 二、全连接层常用激活函数 1. **Sigmoid** - 公式:$ \sigma(x) = \frac{1}{1 + e^{-x}} $ - 特点:输出值域$(0,1)$,适合二分类问题的输出层,但易导致梯度消失。 2. **Tanh** - 公式:$ \tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}} $ - 特点:输出值域$(-1,1)$,梯度特性优于Sigmoid,常用于RNN的隐藏层[^4]。 3. **ReLU(修正线性单元)** - 公式:$ \text{ReLU}(x) = \max(0, x) $ - 特点:计算高效,缓解梯度消失问题,但可能导致“死神经元”[^2]。 4. **Leaky ReLU** - 公式:$ \text{LeakyReLU}(x) = \begin{cases} x, & x > 0 \\ \alpha x, & x \leq 0 \end{cases} $($\alpha$为小常数) - 特点:缓解ReLU的“死神经元”问题,常用于深层网络。 5. **Softmax** - 公式:$ \text{Softmax}(x_i) = \frac{e^{x_i}}{\sum_j e^{x_j}} $ - 特点:输出概率分布,适用于多分类问题的输出层。 #### 三、应用场景与选择建议 1. **计算机视觉** - 全连接层+ReLU:用于CNN分类网络的末端,将卷积特征映射到类别空间。 - 示例:图像分类模型最后一层常为全连接层+Softmax。 2. **自然语言处理** - 全连接层+Tanh/ReLU:在Transformer或RNN中完成语义编码到输出的映射。 3. **生成对抗网络(GAN)** - 生成器:全连接层+Leaky ReLU,增强生成样本多样性[^4]。 - 判别器:全连接层+Sigmoid,输出样本真实性的概率。 4. **推荐系统** - 多层全连接+ReLU:用于自编码器或MLP中,学习用户与物品的非线性关系[^4]。 #### 四、选择原则 1. 隐藏层优先选择ReLU或其变种(如Leaky ReLU); 2. 二分类输出层用Sigmoid,多分类用Softmax; 3. 梯度敏感任务(如RNN)可尝试Tanh; 4. 需平衡计算效率与模型表现。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值