Relu激活

不是浮云笙

于 2024-10-05 20:36:38 发布

阅读量344

点赞数 12

分类专栏：卷积神经网络文章标签： python cnn

本文链接：https://blog.csdn.net/2301_76846375/article/details/142718681

版权

卷积神经网络专栏收录该内容

5 篇文章 0 订阅

订阅专栏

ReLU（Rectified Linear Unit）激活函数 是卷积神经网络（CNN）以及许多深度学习模型中最常用的激活函数之一。它的主要作用是引入非线性，使模型能够学习和表达更复杂的特征。以下是对ReLU激活函数的详细解释。

1. ReLU的数学定义：

ReLU函数的定义非常简单： f(x)=max(0,x)f(x) = \text{max}(0, x)f(x)=max(0,x)

即：

如果输入 xxx 小于 0，输出为 0；
如果输入 xxx 大于 0，输出为 xxx。

2. ReLU的作用：

非线性：ReLU的非线性性质允许神经网络捕捉更复杂的特征和模式。如果没有激活函数（或使用线性激活函数），即使网络有多个层，也只能表示线性关系，无法表示复杂的非线性关系。
效率高：与传统的激活函数（如Sigmoid或Tanh）相比，ReLU的计算非常简单，只是判断输入是否为正，因此计算效率非常高，尤其适合深度网络中的大规模计算。

3. ReLU的形象化解释：

可以把ReLU想象成一个开关，当输入为正时，激活神经元（通过输入值）；当输入为负时，关闭神经元（输出为0）。这种特性非常类似于人脑中神经元的激活和抑制机制。

4. ReLU的优点：

计算简单：ReLU函数的计算非常高效，因为它只涉及到简单的比较操作（大于0输出本身，小于0输出0）。
梯度消失问题较少：相比于Sigmoid或Tanh等激活函数，ReLU在正区域不会导致梯度消失，这使得网络在深层次训练中能够更好地传播梯度，避免训练停滞。
加速收敛：实验表明，使用ReLU激活函数的神经网络在训练时收敛速度更快。

5. ReLU的缺点：

“死亡ReLU”问题：如果输入值总是负的，ReLU会输出0，这意味着该神经元将不会更新，导致神经元永久关闭。这个现象被称为“死亡ReLU”，可能会导致网络中一部分神经元失效。

解决方案：
- 使用 Leaky ReLU：它是ReLU的变体，允许在负值区域有一个小的斜率，而不是直接输出0。例如，Leaky ReLU定义为： f(x)=xif x>0elseαxf(x) = x \quad \text{if } x > 0 \quad \text{else} \quad \alpha xf(x)=xif x>0elseαx 其中， α\alphaα 是一个小的常数，如 0.01，使得负值区域的输出也有轻微的响应，避免神经元完全关闭。
- 使用 Parametric ReLU（PReLU）：它进一步改进了Leaky ReLU，允许网络学习负区域的斜率值 α\alphaα，从而适应不同的任务。

5. ReLU在卷积神经网络中的作用：

在CNN中，ReLU通常在每一个卷积层或全连接层后面使用。它的作用是：

引入非线性：卷积和全连接层本质上是线性变换，ReLU引入了非线性，使得网络能够处理复杂的任务。
增强网络的表达能力：ReLU将负值过滤为0，仅保留正值，从而帮助网络聚焦于有效特征。
ReLU在深度学习中的应用：

ReLU激活函数已广泛应用于几乎所有主流的深度学习网络架构中，尤其是卷积神经网络（CNN）和生成对抗网络（GAN）。例如：
卷积神经网络（CNN）：在图像分类和物体检测等任务中，ReLU激活函数通常用于卷积层后，帮助网络捕捉图像的复杂模式和特征。
生成对抗网络（GAN）：在生成模型中，ReLU通常用于判别器中帮助网络更有效地学习。
深度残差网络（ResNet）：ReLU也在残差网络中广泛使用，通过残差连接帮助网络避免梯度消失问题。

下面小编提供了一份代码进行对Relu激活函数的可视化

from matplotlib.widgets import Slider
import numpy as np
import matplotlib.pyplot as plt

# 定义ReLU激活函数
def relu(x):
    return np.maximum(0, x)
# 创建可交互的ReLU激活函数可视化
x = np.linspace(-10, 10, 400)
y = relu(x)

# 创建图形和坐标轴
fig, ax = plt.subplots(figsize=(8, 6))
plt.subplots_adjust(left=0.1, bottom=0.25)

# 绘制初始的ReLU激活函数曲线
[line] = ax.plot(x, y, label="ReLU", color="b", linewidth=2)
plt.axhline(0, color='black',linewidth=0.5)
plt.axvline(0, color='black',linewidth=0.5)
plt.title("ReLU Activation Function with Adjustable Range", fontsize=16)
plt.xlabel("Input", fontsize=14)
plt.ylabel("Output", fontsize=14)
plt.grid(True)
plt.legend()

# 创建滑动条的位置： [左边距离, 底部距离, 滑动条宽度, 滑动条高度]
ax_slider_left = plt.axes([0.1, 0.1, 0.65, 0.03], facecolor='lightgoldenrodyellow')
ax_slider_right = plt.axes([0.1, 0.05, 0.65, 0.03], facecolor='lightgoldenrodyellow')

# 创建滑动条
slider_left = Slider(ax_slider_left, 'Left', -10, 0, valinit=-10)
slider_right = Slider(ax_slider_right, 'Right', 0, 10, valinit=10)

# 更新函数，当滑动条改变时重新绘制ReLU函数曲线
def update(val):
    left = slider_left.val
    right = slider_right.val
    new_x = np.linspace(left, right, 400)
    new_y = relu(new_x)
    line.set_data(new_x, new_y)
    ax.set_xlim(left, right)
    fig.canvas.draw_idle()

# 将滑动条与更新函数关联
slider_left.on_changed(update)
slider_right.on_changed(update)

plt.show()