python 实现gradient descent准梯度下降法算法

luthane

于 2024-09-27 08:54:41 发布

阅读量187

点赞数 2

分类专栏： python_pyqt_pyside 文章标签： python 算法人工智能

本文链接：https://blog.csdn.net/u010634139/article/details/142584194

版权

python_pyqt_pyside 专栏收录该内容

116 篇文章 2 订阅

订阅专栏

gradient descent准梯度下降法算法介绍

梯度下降法（Gradient Descent）是一种用于求解函数最小值的一阶优化算法，广泛应用于机器学习和深度学习中，通过迭代的方式调整模型参数，以最小化损失函数。以下是梯度下降法算法的基本概念和步骤：

基本概念

梯度：函数在某点的梯度是一个向量，指向函数在该点增长最快的方向。对于最小化问题，我们需要沿着梯度的反方向进行迭代。

学习率（步长）：学习率（通常用α或η表示）决定了在梯度方向上每一步前进的距离。学习率的选择对算法的收敛速度和效果有很大影响。

迭代：从某个初始点开始，不断迭代更新参数值，直到满足收敛条件（如梯度接近于0或达到预设的迭代次数）。

算法步骤

初始化：选择一个初始的参数值（如θ_0）和学习率α。

计算梯度：根据当前参数值，计算损失函数关于参数的梯度（如∇J(θ)）。

更新参数：根据梯度和学习率，更新参数值。对于批量梯度下降（Batch Gradient Descent），更新公式为θ = θ - α ⋅ ∇J(θ)；对于随机梯度下降（Stochastic Gradient Descent），每次迭代只使用一个样本来计算梯度并更新参数。

重复迭代：重复步骤2和步骤3，直到满足收敛条件。

注意事项

学习率的选择：学习率太大可能导致算法无法收敛，甚至发散；学习率太小则收敛速度会很慢。

初始点的选择：不同的初始点可能导致算法收敛到不同的局部最小值。

梯度计算的复杂性：在某些情况下，梯度的计算可能非常复杂。

收敛性：梯度下降算法不保证找到全局最小值，有时可能会陷入局部最小值或鞍点。

超参数调整：除了学习率，还有其他超参数如动量（Momentum）、自适应学习率等，可以通过调整这些超参数来改进梯度下降的性能。

梯度下降算法的变体：除了批量梯度下降和随机梯度下降外，还有小批量梯度下降（Mini-batch Gradient Descent）等变体，可以根据具体问题和数据量选择合适的算法。

gradient descent准梯度下降法算法python实现样例

下面是一个使用Python实现梯度下降法算法的示例：

import numpy as np

def gradient_descent(X, y, learning_rate=0.01, num_iterations=1000):
    num_samples, num_features = X.shape
    weights = np.zeros(num_features)  # 初始化权重为0
    bias = 0                           # 初始化偏差为0
    
    for _ in range(num_iterations):
        # 计算预测值
        y_pred = np.dot(X, weights) + bias
        
        # 计算梯度
        dw = (1/num_samples) * np.dot(X.T, (y_pred - y))
        db = (1/num_samples) * np.sum(y_pred - y)
        
        # 更新权重和偏差
        weights -= learning_rate * dw
        bias -= learning_rate * db
    
    return weights, bias

在这个实现中，X是包含所有训练样本特征的矩阵，y是包含所有训练样本标签的向量。learning_rate是学习率，控制每一步更新的步长大小。num_iterations是迭代次数，控制梯度下降的迭代次数。

函数首先初始化权重和偏差为0。然后在每一次迭代中，根据当前权重和偏差计算预测值。然后根据预测值计算梯度，即误差对权重和偏差的导数。最后根据梯度和学习率更新权重和偏差。重复这个过程，直到达到指定的迭代次数。

你可以使用这个函数来拟合一个线性回归模型，如下所示：

X = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
y = np.array([4, 8, 12])

weights, bias = gradient_descent(X, y)
print(weights)  # 输出:[0.99999999, 1.00000007, 1.00000014]
print(bias)     # 输出: 0.99999997