可学习激活函数 Maxout

109702008

于 2024-07-16 00:06:13 发布

阅读量510

点赞数 8

分类专栏：人工智能 # 深度学习文章标签：学习人工智能

本文链接：https://blog.csdn.net/eidolon_foot/article/details/140379207

版权

人工智能同时被 2 个专栏收录

217 篇文章 2 订阅

订阅专栏

深度学习

99 篇文章 0 订阅

订阅专栏

可学习激活函数 Maxout 是一种神经网络中的激活函数，它在特征提取的过程中能够学习到最优的激活方式，从而提高模型的表达能力和性能。`Maxout` 由 Ian Goodfellow 等人在2013年提出，是一种能够在训练过程中自适应地选择激活函数的模型。

Maxout 可以看作是一类更通用的激活函数，其操作过程比较简单。对于给定的输入，它计算多个线性变换的输出，并选择其中最大的一个作为该神经元的输出。

Maxout的定义：

假设输入是向量 x，通过权重矩阵 W_i 和偏置向量 b_i 进行线性变换，对于某一层的第 i 个神经元，`Maxout` 函数的定义如下：

$z = \max_{1 \leq i \leq k} (x \cdot W_i + b_i)$

其中：
- x 是输入向量。
- W_i 是第 i 个线性变换的权重矩阵。
- b_i 是第 i 个线性变换的偏置向量。
- k 是一个超参数，表示我们允许的线性变换的数量。

主要优点：

1. 更强的表达能力：相比于传统的 ReLU 或 Tanh 激活函数，`Maxout` 函数能够适应不同类型的数据分布，具有更强的表达能力。

2. 解决死神经元问题：传统的 ReLU 激活函数有死神经元问题，即某些神经元在训练过程中可能完全不更新，但 Maxout 可以通过多个线性变换选择最优的输出，缓解这一问题。

3. 兼容性和灵活性：由于 Maxout 自身的结构，能够在不同的网络架构中应用，并能与其它神经网络技术（如 dropout）一同使用。

示例：

一个简单的 Maxout 层的实现例子（假设在某个库中）：

import tensorflow as tf
from tensorflow.keras.layers import Layer

class Maxout(Layer):
    def __init__(self, num_units, num_channels, **kwargs):
        super(Maxout, self).__init__(**kwargs)
        self.num_units = num_units
        self.num_channels = num_channels

    def build(self, input_shape):
        self.W = self.add_weight(shape=(self.num_channels, input_shape[-1], self.num_units),
                                 initializer='glorot_uniform',
                                 trainable=True)
        self.b = self.add_weight(shape=(self.num_channels, self.num_units),
                                 initializer='zeros',
                                 trainable=True)

    def call(self, inputs):
        outputs = tf.tensordot(inputs, self.W, axes=(1, 1)) + self.b
        outputs = tf.reduce_max(outputs, axis=-1)
        return outputs

# 创建 Maxout 层
maxout_layer = Maxout(num_units=256, num_channels=4)

通过这种设计，`Maxout` 可以自适应不同的激活函数的特性，提高模型性能，并解决传统激活函数的一些局限。

激活函数在深度学习中起着至关重要的作用，因为它们是引入非线性，使神经网络能够学习复杂模式的关键因素。每种激活函数都有其特定的优缺点和适用场景。以下是几种经典和较新的激活函数，它们在解决死神经元问题、梯度消失/爆炸问题方面具有一定优势。

经典激活函数

1. Sigmoid
- 优点: 常用在输出层做二分类的问题上。
- 缺点: 导数会接近零，导致梯度消失问题。

2. Tanh (双曲正切函数)
- 优点: 输出范围是 (-1, 1)，比 Sigmoid 更好。
- 缺点: 虽然比 Sigmoid 改进了，但还是会有梯度消失问题。

解决死神经元问题的激活函数

1. ReLU (Rectified Linear Unit)
- 优点: 简单有效，计算速度快。
- 缺点: 可能会出现死神经元（ReLU 的输出恒为 0 的神经元）。

2. Leaky ReLU
- 优点: 引入了一定的负值输出，可以有效解决死神经元问题。
- 公式:

$f(x) = x \) if \( x > 0$

$f(x) = \alpha x \) if \( x \leq 0$ （ $\alpha$ 通常取一个较小的正数，如 0.01）

3. ELU (Exponential Linear Unit)
- 优点: 可以产生负值且有缓冲区，可以缓解梯度消失问题。
- 公式:

$f(x) = \begin{cases} x & \text{if } x > 0 \\ \alpha (\exp(x) - 1) & \text{if } x \leq 0 \end{cases}$

4. SELU (Scaled Exponential Linear Unit)
- 优点: 可以实现自归一化，将信号拉回到一个合适的范围，适合深层神经网络。
- 公式: 类似于 ELU，但加入一个缩放因子。

其他较新的激活函数

1. Swish
- 优点: 通过学习一个基于 Sigmoid 的形状，Swish 的梯度在任何输入上都不为零，从而避免死神经元问题。
- 公式:

$f(x) = x \cdot \text{sigmoid}(x)$

2. Mish
- 优点: 平滑且没有零导数，具备 Swish 和 ELU 的优点，同时表现出更好的实验效果。
- 公式:

$f(x) = x \cdot \tanh(\ln(1 + e^x))$

3. Maxout
- 优点: 可以模拟出更多种类的函数曲线，灵活性更高，可以缓解多种问题，如梯度消失和死神经元问题。
- 公式:

$f(x) = \max(z_1, z_2, ..., z_k)$

选择合适的激活函数取决于具体的应用场景和问题，可以根据需要进行实验和调整。实际中，ReLU 类激活函数依然是默认选择，但在需要时可以尝试使用上述其他激活函数。

109702008

关注

8
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
可学习激活函数 Maxout

假设输入是向量x，通过权重矩阵W_i和偏置向量b_i进行线性变换，对于某一层的第i个神经元，`Maxout` 函数的定义如下：其中：x是输入向量。W_i是第i个线性变换的权重矩阵。b_i是第i个线性变换的偏置向量。k是一个超参数，表示我们允许的线性变换的数量。
复制链接

扫一扫