深度学习与计算机视觉系列(6)_神经网络结构与神经元激励函数

最新推荐文章于 2025-04-21 17:31:11 发布

寒小阳

最新推荐文章于 2025-04-21 17:31:11 发布

阅读量5.8w

点赞数 20

分类专栏：计算机视觉深度学习与计算机视觉文章标签：计算机视觉深度学习神经网络激励函数网络结构

本文链接：https://blog.csdn.net/han_xiaoyang/article/details/50447834

版权

本文深入探讨了神经网络中的神经元结构及其激励函数，包括sigmoid、Tanh、ReLU、Leaky ReLU和Maxout等。文章指出，ReLU因其快速的收敛速度和简洁的梯度计算而广泛使用，但需注意其可能导致神经元死亡的问题。Leaky ReLU和Maxout作为改进版，试图解决这一问题。此外，文章介绍了神经网络的层级连接结构、前向计算和表达力，强调了层数和参数设定对模型性能的影响，并提倡使用正则化防止过拟合。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

作者：寒小阳
时间：2016年1月。
出处：http://blog.csdn.net/han_xiaoyang/article/details/50447834
声明：版权所有，转载请联系作者并注明出处

1.神经元与含义

大家都知道最开始深度学习与神经网络，是受人脑的神经元启发设计出来的。所以我们按照惯例也交代一下背景，从生物学的角度开始介绍，当然也是对神经网络研究的先驱们致一下敬。

1.1 神经元激励与连接

大家都知道，人脑的基本计算单元叫做神经元。现代生物学表明，人的神经系统中大概有860亿神经元，而这数量巨大的神经元之间大约是通过 $10^{14}-10^{15}$ 个突触连接起来的。下面有一幅示意图，粗略地描绘了一下人体神经元与我们简化过后的数学模型。每个神经元都从树突接受信号，同时顺着某个轴突传递信号。而每个神经元都有很多轴突和其他的神经元树突连接。而我们可以看到右边简化的神经元计算模型中，信号也是顺着轴突(比如 $x_0$ )传递，然后在轴突处受到激励( $w_0$ 倍)然后变成 $w_0x_0$ 。我们可以这么理解这个模型：在信号的传导过程中，突触可以控制传导到下一个神经元的信号强弱(数学模型中的权重 $w$ )，而这种强弱是可以学习到的。在基本生物模型中，树突传导信号到神经元细胞，然后这些信号被加和在一块儿了，如果加和的结果被神经元感知超过了某种阈值，那么神经元就被激活，同时沿着轴突向下一个神经元传导信号。在我们简化的数学计算模型中，我们假定有一个『激励函数』来控制加和的结果对神经元的刺激程度，从而控制着是否激活神经元和向后传导信号。比如说，我们在逻辑回归中用到的sigmoid函数就是一种激励函数，因为对于求和的结果输入，sigmoid函数总会输出一个0-1之间的值，我们可以认为这个值表明信号的强度、或者神经元被激活和传导信号的概率。

神经元生物学模型
神经元数学模型

下面是一个简单的程序例子，表明前向传播中单个神经元做的事情：

class Neuron:
  # ... 
  def forward(inputs):
    """ 
    假定输入和权重都是1维的numpy数组，同时bias是一个数 
    """
    cell_body_sum = np.sum(inputs * self.weights) + self.bias
    firing_rate = 1.0 / (1.0 + math.exp(-cell_body_sum)) # sigmoid activation function
    return firing_rate

稍加解释，每个神经元对于输入和权重做内积，加上偏移量bias，然后通过激励函数(比如说这里是sigmoid函数)，然后输出结果。

特别说明：实际生物体内的神经元相当复杂，比如说，神经元的种类就灰常灰常多，它们分别有不同的功能。而加和信号之后的激励函数的非线性变换，也比数学上模拟出来的函数复杂得多。我们用数学建模的神经网络只是一个非常简化后的模型，有兴趣的话你可以阅读材料1或者材料2。

1.2 单个神经元的分类作用

以sigmoid函数作为神经元的激励函数为例，这个大家可能稍微熟悉一点，毕竟我们逻辑回归部分重点提到了这个非线性的函数，把输入值压缩成0-1之间的一个概率值。而通过这个非线性映射和设定的阈值，我们可以把空间切分开，分别对应正样本区域和负样本区域。而对应回现在的神经元场景，我们如果稍加拟人化，可以认为神经元具备了喜欢(概率接近1)和不喜欢(概率接近0)线性划分的某个空间区域的能力。这也就是说，只要调整好权重，单个神经元可以对空间做线性分割。

二值Softmax分类器
对于Softmax分类器详细的内容欢迎参见前面的博文系列，我们标记 $\sigma$ 为sigmoid映射函数，则 σ(∑i