机器学习中优化算法总结以及Python实现

最新推荐文章于 2024-08-24 14:07:53 发布

slx_share

最新推荐文章于 2024-08-24 14:07:53 发布

阅读量1.1w

点赞数 6

分类专栏：机器学习

本文链接：https://blog.csdn.net/slx_share/article/details/80244711

版权

机器学习专栏收录该内容

43 篇文章 17 订阅

订阅专栏

机器学习算法最终总是能转化为最优化问题，习惯上会转化为最小化问题。
个人总结迭代优化算法关键就两点：
(1) 找到下降方向
(2) 确定下降步长

梯度下降算法(Gradient Descent)

梯度下降算法是以最优化函数的负梯度方向为下降方向，更新公式如下： $x_{k+1}=x_k-\eta g_k$ 其中 $g_k$ 为梯度，学习率 $\eta$ 用来调整步长。学习率可以设置为随着步长的增加而衰减： $\eta = \frac{\eta_0}{1+iter*decay}$ 其中， $i t e r 是当前迭代步数， d e c a y 是衰减率。$

最速梯度下降

最速梯度下降算法采用一维精确搜索的反式确定下降步长。即通过极小化 $\phi (\lambda)=L(x_k - \lambda g_k)$ 获得最佳的 $\lambda$ ，即 $x_{k+1}=x_k-\lambda g_k$ 最速梯度下降有一个最大的缺点就是 锯齿现象 ，因为相邻两次下降方向是正交的。如下图所示， $d_0垂直于d_1$ ，造成学习速度下降。 $\phi^{'}(\lambda)=\nabla L(x_k-\lambda g_k)*(-g_k)=-\nabla L(x_{k+1})*g_k=g_{k+1}g_k=0$

批量梯度下降(BGD)

一次迭代过程，所有训练数据均参与训练。误差的计算是所有样本误差的均值，并以该误差的均值参与梯度的计算。

随机梯度下降(SGD)

一次迭代过程，仅仅一个样本参与训练，且该样本是随机挑选的。

小批量梯度下降(MSGD)

BGD与SGD的结合。一次迭代，随机挑选出K个样本组成小样本集合参与训练，后续训练过程与BGD相同。小批量实际应用最为广泛，原因有：

虽然批量梯度下降算法计算梯度更精确，但回报是小于线性的。
小批量适合多核运算。
小批量有正则化的效果。

一般来讲，仅仅基于梯度的优化算法可以设置较小的K，但需要计算海塞矩阵的优化算法需要较大的K，因为矩阵可能是病态的。

动量算法(momentum)

前面讲到最速梯度下降算法的"锯齿现象"影响了收敛速度，即便不采用一维精确搜索，下降方向也是震荡得厉害，即随机梯度方差较大。因此引入动量项调整梯度方向，减少震荡，加入动量项后，下降的方向不再是梯度方向，而是由当前损失函数梯度与上一轮梯度的合成方向，即 $g_t =\nabla _{\theta_i} L(\theta_i) \\ v_t=\alpha v_{t-1} - \eta g_t \\ \theta_t = \theta_{t-1} + v_t$ 可见 $\alpha$ 越大，上一轮梯度的影响越大。之所以取名动量，是类比物理学中单位质量的动量。另外可以采用Nesterov 动量，区别仅仅在对 $g_t$ 进行一个矫正，即梯度计算在施加当前速度之后： $\hat \theta_i = \theta_{t-1} + \alpha v_{t-1} \\ g_t =\nabla _{\hat \theta_i} L(\hat \theta_i)$ 在凸批量梯度的情况下，Nesterov 动量可将额外误差收敛率从 $\mathcal{O}(1/k)$ 改进到 $\mathcal{O}(1/k^2)$ ，如 Nesterov (1983) 所示。但在随机梯度的情况下，收敛率并未得到改进。

自适应学习率算法(AdaGrad)

AdaGrad算法每个参数拥有独立的，自适应的学习率。用梯度分量平方的累积量来调节学习率以某个参数分量为例： $g_t =\nabla _{\theta_i} L(\theta_i) \\ r_t = r_{t-1} + g_t^2 \\ \theta_t = \theta_{t-1} - \frac{\eta g_t}{\sqrt r_t + \epsilon}$ 其中， $\eta$ 是初始学习率， $\epsilon$ 意在防止 $r_t$ 为0，通常设置非常小(如1e-10)。
随着迭代次数的逐步累积， $r$ 越来越大，学习率越来越小，符合对学习过程先快后慢的要求，但缺点是 $r$ 会过量过早。

均方根反向传播算法(RMSprop)

指数移动平均(EMA)

一个序列 ${a_0, a_1,a_3,...,a_t,...\}$ ,则这个序列在t时刻的指数移动平均值为： $g_t = \rho g_{t-1} + (1-\rho)a_t$ 这是一个迭代式，求和得： $g_t=\sum_{i=1}^t\rho ^{t-i}*(1-\rho)a_i$ 也就是说t时刻的指数平均值仅仅与t时刻前的序列相关。

参数更新

RMSprop应用梯度分量平方的指数移动平均值来取代AdaGrad算法中梯度分量平方。以某个参数分量为例： $g_t =\nabla _{\theta_i} L(\theta_i) \\ m_t = \rho m_{t-1} + (1-\rho)g_t^2 \\ \theta_t=\theta_{t-1}-\frac{\eta g_t }{\sqrt{m_t}+\epsilon}\\$ 其中，超参数 $\rho$ 是衰减系数。

自适应矩估计优化算法(Adam)

Adam算法可以看作是动量算法与RMSprop算法的结合，RMS算法仅仅应用了梯度分量的平方来调节参数更新量，而Adam应用梯度分量及其平方共同调节参数更新量，以某个参数分量为例： $g_t =\nabla _{\theta_i} L(\theta_i) \\ m_t = \beta_1 m_{t-1} + (1-\beta_1)g_t \\ v_t = \beta_2 v_{t-1} + (1-\beta_2)g_t^2 \\ bias\ correct: \hat {m_t} = \frac{m_t}{1-\beta_1^t},\hat {v_t}=\frac{v_t}{1-\beta_2^t} \\ \theta_t=\theta_{t-1}-\frac{\eta \hat{m_t}}{\sqrt{\hat v_t}+\epsilon} \\$ 可见与RMSprop相比，Adam对最后一步参数更新公式中 $g_t$ 进行了修正，即加入了动量项 $m_{t-1}$ 。另外, $m, v$ 通常初始化为0，而 $\beta1, \beta2$ 通常设置较大，例如0.9, 0.999,那么在起始阶段偏执将非常小，因此引入 $\frac{1}{1-\beta^t}$ ,随着步数t增大，该值逐渐减小。

牛顿法

梯度下降法仅仅利用了目标函数的一阶导数信息，这意味着未考虑目标函数曲面的曲率，牛顿法考虑了目标函数的二阶导数，迭代更新公式如下： $x_{k+1}=x_k-H_k^{-1}g_k$ 其中， $H_k^{-1}$ 为海塞矩阵的逆矩阵， $g_k$ 为梯度。
牛顿法本质是使用海塞矩阵获取沿负梯度方向下降的最优步长，例如在曲率较大时，下降越快，当率较小时则使步长变小。牛顿法只适用于海塞矩阵是正定的情况，在鞍点时就需要正则化，保证朝正确的方向下降。海塞矩阵计算量大，因此深度学习领域很少用到牛顿法。

拟牛顿法

牛顿法虽然收敛速度很快，但海塞矩阵的计算量大。故采用一个正定矩阵 $G_k$ 近似 $H_k^{-1}$ 或 $B_k$ 近似 $H_k$ ，称之为拟牛顿算法。BFGS是应用最为广泛的拟牛顿算法，该算法用 $B_k$ 近似 $H_k$ 。 $B_k$ 更新公式如下： $B_{k+1}=B_k+\frac{y_ky_k^T}{y_k^T\delta_k}-\frac{B_k\delta_k\delta_k^TB_k}{\delta_k^TB_k\delta_k}$ 其中， $\delta_k$ 为当前自变量增量。
BFGS算法通常需要一维搜索合适的步长。

一维不精确搜索

搜索合适的步长可以有效加快算法收敛速度。一维搜索可分为一维精确搜索和不精确搜索，精确搜索就是每一次迭代，都选取特定步长使目标函数一定能沿着指定方向达到极小(不是最小)。若选取的步长仅使得目标函数下降程度达到用户要求即可，就是不精确搜索。实际中很难获取准确的步长，也没必要耗费计算资源，所以不精确搜索更为实用。一维不精确搜索准则通常要保证两点：1. 目标函数值有足够下降 2.自变量有足够变动幅度
有如下几种一维搜索步长的准则：

Armijo 准则：就是保证目标函数值有足够下降。 $f(X_k + \alpha d_k) - f(X_k) \leqslant \rho \alpha g_k^Td_k\\\alpha=\beta\gamma^m\\\beta>0, \gamma \in (0,1), \rho\in(0,\frac{1}{2}),m为非负整数$
Goldstein准则：通常与Armijo联合使用称为Armijo-Goldstein准则。就是在Armijo准则的基础上，再添加一条准则保证自变量有足够变动幅度。 $f(X_k + \alpha d_k) - f(X_k) \geqslant (1-\rho) \alpha g_k^T d_k\\\rho\in(0,\frac{1}{2})$
Wolfe-Powell准则:与Armijo准则联用，采用更简单的式子替换Goldstein准则。 $g_{k+1}^Td_k\geqslant \sigma g_k^Td_k\\\sigma \in(\rho, 1)$

代码

以最常用的平方误差函数为例，实现各个优化算法，未经严格测试，仅做参考学习。

"""
优化算法的核心两点：1.寻找下降方向  2.一维搜索下降的步长
梯度下降算法以负梯度方向为下降方向
牛顿法以海塞矩阵逆矩阵与梯度乘积为下降方向（此时学习率恒为1）
拟牛顿法同牛顿法，仅仅以B代替海塞矩阵

一维不精确搜索：Wolfe和Armijo确定搜索步长（通常应用于拟牛顿法）
Armijo: f(Xk + eta * Dk) - f(Xk) <= rho * eta * Grad.T * Dk, eta=beta*gamma**m(m为非负整数，beta>0)
Goldstein(需要联合Armijo): f(Xk + eta * Dk) - f(Xk) >= (1-rho) * eta * Grad.T * Dk
Wolfe-Powell(需要联合Armijo):  Grad(k+1).T * Dk >= sigma * Grad(k).T * Dk, rho<sigma<1

以线性回归为例：
平方误差损失函数的最小化的优化问题
J(X)=1/2m(f(X)-y)**2, f(X)=wX,m为样本总数， 最优化函数J(X)对w的梯度为X(wX-y)

输入X:n*d, y:n*1
初始化W:d*1
"""

import numpy as np
from numpy.linalg import norm, inv
from itertools import cycle


def grad(X, y, W):
    return X.T @ (X @ W - y) / X.shape[0]


def initial(X, y, batch_size):
    # 小批量梯度下降初始化
    assert batch_size > 1
    W = np.ones((X.shape[1], 1))
    indx = np.random.permutation(np.arange(X.shape[0]))
    X, y = X[indx], y[indx]
    indx_cycle = cycle(np.arange(X.shape[0] // batch_size + 1) * batch_size)
    return W, indx_cycle


def bgd(X, y, epsilon=1e-2, max_iter=1000, eta=0.1):
    # 批量梯度下降算法
    i = 0
    W = np.ones((X.shape[1], 1))  # 初始化权值 d*1
    while i < max_iter:
        Grad = grad(X, y, W)  # 1*d 计算梯度
        if norm(Grad) < epsilon:  # 如果梯度的第二范数小于阈值，则终止训练
            break
        W -= eta * Grad  # 负梯度方向下降，更新自变量，即权值w
        i += 1

    return W


def sgd(X, y, epsilon=1e-2, max_iter=3600, eta=0.1):
    # 随机梯度下降
    i = 0
    W = np.ones((X.shape[1], 1))
    while i < max_iter:
        indx = np.random.randint(X.shape[0], size=1)  # 随机选择一个样本
        X_s, y_s = X[(indx)], y[(indx)]
        Grad = grad(X_s, y_s, W)
        if norm(Grad) < epsilon:
            break
        W -= eta * Grad
        i += 1
    return W


def msgd(X, y, epsilon=1e-2, max_iter=1000, eta=0.1, batch_size=4):
    # 小批量梯度下降
    W, indx_cycle = initial(X, y, batch_size)
    i = 0
    while i < max_iter:
        j = next(indx_cycle)
        X_s, y_s = X[j:j + batch_size], y[j:j + batch_size]
        Grad = grad(X_s, y_s, W)
        if norm(Grad) < epsilon:
            break
        W -= eta * Grad
        i += 1
    return W


def momentum(X, y, epsilon=1e-2, max_iter=3600, eta=0.1, batch_size=4, alpha=0.01, nesterov=False):
    # 随机梯度下降
    W, indx_cycle = initial(X, y, batch_size)
    i = 0
    v = np.zeros((X.shape[1], 1))  # 初始化动量
    while i < max_iter:
        j = next(indx_cycle)
        X_s, y_s = X[j:j + batch_size], y[j:j + batch_size]
        if nesterov:
            W += alpha * v
        Grad = grad(X_s, y_s, W)
        if norm(Grad) < epsilon:
            break
        v = alpha * v - eta * Grad
        W += v
        i += 1
    return W


def adag(X, y, epsilon=1e-2, max_iter=1000, eta=0.1, batch_size=4, eps_station=1e-10):
    # adaptive gradient descent自适应学习率梯度下降
    W, indx_cycle = initial(X, y, batch_size)
    r = np.zeros((X.shape[1], 1))
    i = 0
    while i < max_iter:
        j = next(indx_cycle)
        X_s, y_s = X[j:j + batch_size], y[j:j + batch_size]
        Grad = grad(X_s, y_s, W)
        if norm(Grad) < epsilon:
            break
        r += Grad ** 2
        W -= eta * Grad / (np.sqrt(r) + eps_station)
        i += 1
    return W


def rms_prop(X, y, epsilon=1e-2, max_iter=1000, eta=0.01, rho=0.9, batch_size=4, eps_station=1e-10):
    # 均方根反向传播算法
    W, indx_cycle = initial(X, y, batch_size)
    m = np.zeros((X.shape[1], 1))
    i = 0
    while i < max_iter:
        j = next(indx_cycle)
        X_s, y_s = X[j:j + batch_size], y[j:j + batch_size]
        Grad = grad(X_s, y_s, W)
        if norm(Grad) < epsilon:
            break
        m = rho * m + (1 - rho) * Grad ** 2
        W -= eta * Grad / (np.sqrt(m) + eps_station)
        i += 1
    return W


def adam(X, y, epsilon=1e-2, max_iter=1000, eta=0.01, beta1=0.9, beta2=0.999, batch_size=4, eps_station=1e-10):
    # adam算法
    W, indx_cycle = initial(X, y, batch_size)
    m = np.zeros((X.shape[1], 1))
    v = np.zeros((X.shape[1], 1))
    i = 0
    while i < max_iter:
        j = next(indx_cycle)
        X_s, y_s = X[j:j + batch_size], y[j:j + batch_size]
        Grad = grad(X_s, y_s, W)
        if norm(Grad) < epsilon:
            break
        m = beta1 * m + (1 - beta1) * Grad
        v = beta2 * v + (1 - beta2) * Grad ** 2
        m_bar = m / (1 - beta1 ** (i + 1))
        v_bar = v / (1 - beta2 ** (i + 1))
        W -= eta * m_bar / (np.sqrt(v_bar) + eps_station)
        i += 1
    return W


def newton(X, y, epsilon=1e-2, max_iter=1000):
    # 牛顿法
    i = 0
    W = np.ones((X.shape[1], 1))
    x1 = X[:, 0]  # 变量维度1,n维向量
    x2 = X[:, 1]
    while i < max_iter:
        err = X @ W - y  # n*1
        Grad = X.T @ err / X.shape[0]
        if norm(Grad) < epsilon:  # 如果梯度的第二范数小于阈值，则终止训练
            break
        err = err.reshape(-1)
        H12 = 2 * x1 @ x2
        H11 = 2 * err @ x1
        H22 = 2 * err @ x2
        H = np.array([[H11, H12], [H12, H22]])  # 计算海塞矩阵
        W -= inv(H) @ Grad  # 负梯度方向下降，更新自变量，即权值w
        i += 1
    return W


def bfgs(X, y, epsilon=1e-4, max_iter=1000):
    # 拟牛顿算法
    i = 0
    W = np.ones((X.shape[1], 1))
    N = X.shape[0]
    B = np.eye(X.shape[1])  # 初始化B d*d
    while i < max_iter:
        err = X @ W - y
        fx = err.T @ err / 2 / N
        Grad = X.T @ err / N  # d*1 计算梯度
        if norm(Grad) < epsilon:  # 如果梯度的第二范数小于阈值，则终止训练
            break
        Dk = - inv(B) @ Grad  # d*1, 下降方向
        eta, W = wp_search(W, Dk, fx, Grad, X, y, N)  # 下降步长以及更新w, 注意弱用WP规则，还可以返回新的梯度，减少重复计算
        delta = eta * Dk  # d*1 自变量w的增量
        yk = B @ delta  # d*1, 更新yk
        B = B + yk @ yk.T / (yk.T @ delta)[0] - B @ delta @ (delta.T @ B) / (delta.T @ B @ delta)[0]  # 更新B
    return W


def wp_search(W, Dk, fx, Grad, X, y, N, sigma=0.75, gamma=0.5, rho=1e-4, beta=1, maxm=100):
    # 基于Wolfe-Powell条件的不精确一维搜索
    assert ((rho < 1.0 / 2) and (rho > 0))
    assert ((gamma < 1.0) and (gamma > 0.0))
    assert ((sigma > rho) and (sigma < 1))
    assert (beta > 0)
    m = 0
    W_new = None
    eta = None
    while m < maxm:
        eta = beta * gamma ** m  # 一维搜索合适的m,进而更新eta
        W_new = W + eta * Dk
        err_new = X @ W_new - y
        fx_new = err_new.T @ err_new / 2 / N  # 下降后的函数值
        diff_val = fx_new - fx  # 下降量
        gdk = Grad.T @ Dk
        exp_diff = eta * gdk
        Grad_new = X.T @ err_new / N  # 更新w后的梯度
        if (diff_val[0] <= rho * exp_diff[0]) and (Grad_new.T @ Dk >= sigma * gdk):
            break
        m += 1
    return eta, W_new


def ag_search(W, Dk, fx, Grad, X, y, N, gamma=0.5, rho=1e-4, beta=1, maxm=100):
    # 基于Armijo-Goldstein条件的不精确一维搜索
    assert ((rho < 1.0 / 2) and (rho > 0))
    assert ((gamma < 1.0) and (gamma > 0.0))
    assert (beta > 0)
    m = 0
    eta = None
    W_new = None
    while m < maxm:
        eta = beta * gamma ** m  # 一维搜索合适的m,进而更新eta
        W_new = W + eta * Dk
        err_new = X @ W_new - y
        fx_new = err_new.T @ err_new / 2 / N  # 下降后的函数值
        diff_val = fx_new - fx  # 下降量
        exp_diff = eta * Grad.T @ Dk
        if (diff_val[0] <= rho * exp_diff[0]) and (diff_val[0] >= (1 - rho) * exp_diff[0]):
            break
        m += 1
    return eta, W_new


def predict(X, W):
    return X @ W


if __name__ == '__main__':
    from sklearn.metrics import mean_squared_error
    from pprint import pprint

    train_data = np.array([[1.1, 1.5, 2.5],
                           [1.3, 1.9, 3.2],
                           [1.5, 2.3, 3.9],
                           [1.7, 2.7, 4.6],
                           [1.9, 3.1, 5.3],
                           [2.1, 3.5, 6.0],
                           [2.3, 3.9, 6.7],
                           [2.5, 4.3, 7.4],
                           [2.7, 4.7, 8.1],
                           [2.9, 5.1, 8.8]])
    X_train, y_train = train_data[:, :-1], train_data[:, [-1]]
    test_data = np.array([[3.1, 5.5, 9.5],
                          [3.3, 5.9, 10.2],
                          [3.5, 6.3, 10.9],
                          [3.7, 6.7, 11.6],
                          [3.9, 7.1, 12.3]])
    X_test, y_test = test_data[:, :-1], test_data[:, [-1]]

    W = bfgs(X_train, y_train, epsilon=1e-5, max_iter=3000)
    y_pred = predict(X_test, W)
    pprint(W)
    print(y_pred, '\n', mean_squared_error(y_test, y_pred))