深度学习模型九大经典初始化方案

极光喵

已于 2024-03-06 18:04:27 修改

阅读量2.5k

点赞数 31

文章标签：深度学习人工智能

于 2024-03-06 18:03:40 首次发布

本文链接：https://blog.csdn.net/qq_39297053/article/details/136407782

版权

注意：本文引用自专业人工智能社区Venus AI

1. 正态分布初始化

正态分布初始化将权重初始化为来自正态（或高斯）分布的随机数。该分布通常以0为均值，其标准差（或方差）可以根据网络的特定需求进行调整。这种方法在保证权重不会开始时过大或过小的同时，允许模型自行学习适合的权重分布。

让我们用Python来实现正态初始化：

def normal_distribution_initialization(n_in, n_out, std=0.01):
    """
    Normal distribution initialization for a weight matrix.
    
    :param n_in: Number of input units.
    :param n_out: Number of output units.
    :param std: Standard deviation of the normal distribution.
    :return: Initialized weight matrix.
    """
    weights = np.random.normal(0, std, (n_out, n_in))  # Initialize weights
    return weights

# Example: Initialize weights for a layer with 100 input units and 50 output units using normal distribution
weights_normal = normal_distribution_initialization(n_in, n_out, std=0.01)

# Plot the histogram of the initialized weights
plt.hist(weights_normal.flatten(), bins=50, color='purple', alpha=0.7)
plt.title('Normal Distribution Initialization Weight Distribution')
plt.xlabel('Weight value')
plt.ylabel('Frequency')
plt.show()

代码运行结果如下：

在图1中，我们展示了使用正态分布初始化方法初始化权重后的权重分布直方图。可以看到，这些权重值主要集中在零附近，呈现出紧凑的高斯分布形状。在这个例子中，标准差设置为0.01，这意味着大多数权重值都位于[−0.02,0.02] 的范围内。

正态分布初始化是一种通用的初始化策略，适用于多种不同类型的神经网络。通过合理选择分布的标准差，可以确保权重既不会过大，也不会过小，有助于网络在训练过程中稳定地学习。

2. 均匀初始化

均匀初始化是一种简单而常用的神经网络权重初始化方法。在这种方法中，权重被初始化为在一个特定的小范围内均匀分布的随机数。均匀初始化的主要优势在于其简单性和在许多场景下的有效性。它适用于多种不同类型的神经网络，特别是在缺乏先验知识时，提供了一种合理的权重初始化选择。通过在合理的范围内均匀分布权重，这种方法有助于避免在训练初期激活值过大或过小，从而促进了有效的学习过程。

接下来，我将介绍均匀分布初始化的实现和可视化。

# 均匀分布初始化的实现和权重分布直方图

def uniform_distribution_initialization(n_in, n_out, limit=0.01):
    """
    Uniform distribution initialization for a weight matrix.
    
    :param n_in: Number of input units.
    :param n_out: Number of output units.
    :param limit: The range of the uniform distribution (-limit, limit).
    :return: Initialized weight matrix.
    """
    weights = np.random.uniform(-limit, limit, (n_out, n_in))  # Initialize weights
    return weights

# Example: Initialize weights for a layer with 100 input units and 50 output units using uniform distribution
weights_uniform = uniform_distribution_initialization(n_in, n_out, limit=0.01)

# Plot the histogram of the initialized weights
plt.hist(weights_uniform.flatten(), bins=50, color='orange', alpha=0.7)
plt.title('Uniform Distribution Initialization Weight Distribution')
plt.xlabel('Weight value')
plt.ylabel('Frequency')
plt.show()

代码运行结果如下：