神经网络权重初始化学习

最新推荐文章于 2024-05-19 21:39:24 发布

pumpkin84514

最新推荐文章于 2024-05-19 21:39:24 发布

阅读量764

点赞数 23

分类专栏： AI相关学习文章标签：神经网络学习人工智能

本文链接：https://blog.csdn.net/pumpkin84514/article/details/138734392

版权

AI相关学习专栏收录该内容

28 篇文章 0 订阅

订阅专栏

在神经网络中，权重初始化是一个关键步骤，它影响着模型的训练效率和最终性能。使用正态分布作为初始值是一种常见且有效的策略，尤其是在深度学习中。

原理

为何使用分布初始化？
- 如果所有权重初始化为相同的值（如全零初始化），那么网络中的各个神经元将会在初始时刻学习到相同的东西，导致梯度下降时更新步调一致，无法打破对称性，从而影响模型的学习能力。
- 使用随机分布（如正态分布）可以为网络提供多样化的初始化条件，有助于模型更快地收敛。
为何选择正态分布？
- 正态分布（高斯分布）是一种自然选择，因为它广泛存在于自然界和社会现象中，且其数学性质良好，易于操作。
- 正态分布可以通过调整其均值和标准差来控制初始化参数的范围，从而影响模型的学习过程。
为何标准化（如除以sqrt(n)）？
- 在较深的网络中，未标准化的权重初始化可能导致梯度爆炸或消失问题。为了解决这一问题，研究者提出了不同策略，其中一种是使网络各层的输出具有相近的方差。
- Xavier初始化（也称为Glorot初始化）和He初始化是两种著名的基于此原则的初始化方法。对于ReLU及其变种激活函数，He初始化建议权重应从标准差为sqrt(2/n)的正态分布中抽取，其中n是前一层的神经元数量。这有助于保持信号在整个网络中的传递，并加速训练过程。

具体示例

以下是一个使用Python和NumPy库，根据He初始化原则从正态分布中初始化权重的简单示例：

import numpy as np

def he_initialization(layer_input_size, layer_output_size):
    """
    使用He初始化方法从正态分布中生成权重矩阵。
    
    参数:
    layer_input_size -- 前一层神经元的数量
    layer_output_size -- 当前层神经元的数量
    
    返回:
    W -- 初始化的权重矩阵
    """
    std_dev = np.sqrt(2 / layer_input_size)  # He初始化的方差公式
    W = np.random.normal(loc=0, scale=std_dev, size=(layer_input_size, layer_output_size))
    return W

# 示例：初始化一个拥有100个输入特征和50个隐藏单元的全连接层权重
input_size = 100
output_size = 50
weights = he_initialization(input_size, output_size)

print(weights.shape)  # 应输出 (100, 50)，表明我们得到了一个100x50的权重矩阵