深度学习与计算机视觉系列(6)_神经网络结构与神经元激励函数

本文链接：https://blog.csdn.net/longxinchen_ml/article/details/50448267

本文详细介绍了神经网络的基本构成单元——神经元，包括其激励与连接、分类作用以及常用的激励函数如sigmoid、ReLU、Leaky ReLU和Maxout。神经元的非线性变换在神经网络中起着关键作用，不同的激励函数有不同的优缺点，影响网络的训练速度和防止梯度消失。此外，文章还讨论了神经网络的结构、前向传播和参数设置对模型表达力和过拟合的影响，强调了深度和宽度对模型性能的重要性，以及正则化在缓解过拟合中的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

作者：寒小阳 && 龙心尘
时间：2016年1月。
出处：
http://blog.csdn.net/han_xiaoyang/article/details/50447834
http://blog.csdn.net/longxinchen_ml/article/details/50448267
声明：版权所有，转载请联系作者并注明出处

1.神经元与含义

大家都知道最开始深度学习与神经网络，是受人脑的神经元启发设计出来的。所以我们按照惯例也交代一下背景，从生物学的角度开始介绍，当然也是对神经网络研究的先驱们致一下敬。

1.1 神经元激励与连接

大家都知道，人脑的基本计算单元叫做神经元。现代生物学表明，人的神经系统中大概有860亿神经元，而这数量巨大的神经元之间大约是通过 $10^{14}-10^{15}$ 个突触连接起来的。下面有一幅示意图，粗略地描绘了一下人体神经元与我们简化过后的数学模型。每个神经元都从树突接受信号，同时顺着某个轴突传递信号。而每个神经元都有很多轴突和其他的神经元树突连接。而我们可以看到右边简化的神经元计算模型中，信号也是顺着轴突(比如 $x_0$ )传递，然后在轴突处受到激励( $w_0$ 倍)然后变成 $w_0x_0$ 。我们可以这么理解这个模型：在信号的传导过程中，突触可以控制传导到下一个神经元的信号强弱(数学模型中的权重 $w$ )，而这种强弱是可以学习到的。在基本生物模型中，树突传导信号到神经元细胞，然后这些信号被加和在一块儿了，如果加和的结果被神经元感知超过了某种阈值，那么神经元就被激活，同时沿着轴突向下一个神经元传导信号。在我们简化的数学计算模型中，我们假定有一个『激励函数』来控制加和的结果对神经元的刺激程度，从而控制着是否激活神经元和向后传导信号。比如说，我们在逻辑回归中用到的sigmoid函数就是一种激励函数，因为对于求和的结果输入，sigmoid函数总会输出一个0-1之间的值，我们可以认为这个值表明信号的强度、或者神经元被激活和传导信号的概率。

神经元生物学模型
神经元数学模型

下面是一个简单的程序例子，表明前向传播中单个神经元做的事情：

class Neuron:
  # ... 
  def forward(inputs):
    """ 
    假定输入和权重都是1维的numpy数组，同时bias是一个数 
    """
    cell_body_sum = np.sum(inputs * self.weights) + self.bias
    firing_rate = 1.0 / (1.0 + math.exp(-cell_body_sum)) # sigmoid activation function
    return firing_rate

稍加解释，每个神经元对于输入和权重做内积，加上偏移量bias，然后通过激励函数(比如说这里是sigmoid函数)，然后输出结果。

特别说明：实际生物体内的神经元相当复杂，比如说，神经元的种类就灰常灰常多，它们分别有不同的功能。而加和信号之后的激励函数的非线性变换，也比数学上模拟出来的函数复杂得多。我们用数学建模的神经网络只是一个非常简化后的模型，有兴趣的话你可以阅读材料1或者材料2。

1.2 单个神经元的分类作用

以sigmoid函数作为神经元的激励函数为例，这个大家可能稍微熟悉一点，毕竟我们逻辑回归部分重点提到了这个非线性的函数，把输入值压缩成0-1之间的一个概率值。而通过这个非线性映射和设定的阈值，我们可以把空间切分开，分别对应正样本区域和负样本区域。而对应回现在的神经元场景，我们如果稍加拟人化，可以认为神经元具备了喜欢(概率接近1)和不喜欢(概率接近0)线性划分的某个空间区域的能力。这也就是说，只要调整好权重，单个神经元可以对空间做线性分割。

二值Softmax分类器
对于Softmax分类器详细的内容欢迎参见前面的博文系列，我们标记 $\sigma$ 为sigmoid映射函数，则 $\sigma(\sum_iw_ix_i + b)$ 可视作二分类问题中属于某个类的概率 $P(y_i = 1 \mid x_i; w)$ ，当然，这样我们也可以得到相反的那个类别的概率为 $P(y_i = 0 \mid x_i; w) = 1 - P(y_i = 1 \mid x_i; w)$ 。根据前面博文提到的知识，我们可以使用互熵损失作为这个二值线性分类器的损失函数(loss function)，而最优化损失函数得到的一组参数 $W,b$ ，就能帮助我们将空间线性分割，得到二值分类器。当然，和逻辑回归中看到的一样，最后神经元预测的结果y值如果大于0.5，那我们会判定它属于这个类别，反之则属于另外一个类别。

二值SVM分类器
同样的，我们可以设定max-margin hinge loss作为损失函数，从而将神经元训练成一个二值支持向量机分类器。详细的内容依旧欢迎大家查看之前的博客。

对于正则化的解释
对于正则化的损失函数(不管是SVM还是Softmax)，其实我们在神经元的生物特性上都能找到对应的解释，我们可以将其(正则化项的作用)视作信号在神经元传递过程中的逐步淡化/衰减(gradual forgetting)，因为正则化项的作用是在每次迭代过程中，控制住权重 w