机器学习中常用的梯度下降法

最新推荐文章于 2021-10-24 15:18:48 发布

catinlbb

最新推荐文章于 2021-10-24 15:18:48 发布

阅读量311

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/catinlbb/article/details/103095662

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

机器学习中常用梯度下降法

写在前面
梯度下降算法
算例

写在前面

最近在上机器学习的讨论班，今天讲到梯度下降法，又去翻看了吴恩达老师机器学习课程的相关视频，记录下学习笔记。

梯度下降算法就可以用爬山去解释的非常典型的一个例子。设想，我们现在在一座风景优美的山上，天快黑了，我们该怎样选择下山路径，以最快的速度下山到山脚下。我们站在所在的位置往四周看，发现有一个方向最陡（负梯度方向），沿着这个方向走一步，能让我们的海拔降低最多，所以我们就沿着这个方向走一步。然后在现在站的位置上，再看四周，找一个最陡的方向走一步，以此一步一步往山下走。这样我们能以最快的速度到达山脚（局部最小解）。这就是梯度下降法的思想。

梯度下降算法

看了一些资料，现在在机器学习方向，常用梯度下降法有三种形式：批量梯度下降法（Batch Gradient Descent），随机梯度下降法（Stochastic Gradient Descent），小批量梯度下降法（Mini-Batch Gradient Descent）。我们以线性回归的目标函数为例来分别讲解下三种形式的梯度下降方法。设有数据集 $D=\{(x_i,y_i),i=1,2,\cdots,m\}$ , 其中 $x_i=(x^{(1)}_i,x^{(2)}_i,\cdots,x^{(d)}_i)^T, y_i\in \mathbb{R}$ , 要求解以下最小化误差函数

$\theta^*=\arg \min J(\theta)$
其中
$J(\theta)=\frac{1}{2m}\sum^m_{i=1}\left(\theta^Tx_i-y_i\right)^2$

1.批量梯度下降法（BGD）

$J(\theta)$ 的梯度为
$\nabla J(\theta)=\frac{1}{m}\sum^m_{i=1}(\theta^{T}x_i-y_i)x_i$ 选择合适的步长 $\eta$ ，可以得到BGD如下：

BGD算法
Step1：选择合适的初始值 $\theta_0$ 和误差容忍度 $\epsilon$ ，学习率 $\eta$ ，
Step2：对 $k=1,2,\cdots$
$\hskip3em\theta_{k+1}=\theta_k+\frac{\eta}{m}\sum^m_{i=1}(y_i-\theta^{T}x_i)x_i$
$\hskip3em$ 如果 $|J(\theta_{k+1})-J(\theta_k)| < \epsilon$ , 停止迭代
Step3：输出 $\theta_{k+1}$ 为所求最小值点。

2.随机梯度下降法（SGD）

用批量梯度下降法每次更新参数 $\theta$ 的时候，需要对所有的训练样本进行求和，当训练数据量很大的时候，计算量会非常大。为了解决这个困难，随机梯度下降法被提出。 SGD的基本思路是，先将训练样本随机打乱重新排好，然后每次更新参数 $\theta$ 时，依次选取其中的一个样本，使其误差函数下降。第 $k$ 个样本的误差函数

$J_k(\theta)=\frac{1}{2}\left(\theta^Tx_i-y_i\right)^2$
梯度为 $\nabla J_k(\theta)=(\theta^{T}x_i-y_i)x_i$ 。选择合适的步长 $\eta$ ，可以得到SGD如下：

SGD算法
Step1：选择合适的初始值 $\theta_0$ 和误差容忍度 $\epsilon$ ，学习率 $\eta$ ，
Step2：将训练样本 $(x_i,y_i),i=12,\cdots,m$ ，打乱重新排序。打乱之后的训练样本仍记为 $(x_i,y_i),i=12,\cdots,m$
Step3：do{ //一般重复10次左右
$\hskip4em$ for $i=1,2,\cdots, m$ ,
$\hskip5em$ $\theta_{k+1}=\theta_k+\eta(y_i-\theta^{T}x_i)x_i$
$\hskip4em$ 如果 $|J(\theta_{k+1})-J(\theta_k)| < \epsilon$ , 停止迭代
$\hskip3em$ }
Step4：输出 $\theta_{k+1}$ 为所求最小值点。

3.小批量梯度下降法（MGD）

结合BGD和SGD算法，产生了小批量梯度下降法，其思路为：选取适当的batchsize，利用训练样本中batchsize个样本来更新参数 $\theta$ ，即每次更新参数 $\theta$ 时，使batchsize个样本的误差下降。

MGD算法
Step1：选择合适的初始值 $\theta_0$ 和误差容忍度 $\epsilon$ ，学习率 $\eta$ 和batchsize，令 $nb=\frac{M}{bs}$ , $t = 0$
Step2：for $j=1,2,\cdots, nb$
$\hskip4em$ $\theta_{k+1}=\theta_k+\frac{\eta}{bs}\sum^{t+bs}_{i=t}(y_i-\theta^{T}x_i)x_i$
$\hskip4em$ t=t+bs
$\hskip4em$ 如果 $|J(\theta_{k+1})-J(\theta_k)| < \epsilon$ , 停止迭代
Step4：输出 $\theta_{k+1}$ 为所求最小值点。

算例

由于熬夜感冒了，先实现BGD。给定数据集如图所示，对这组数据做线性回归。

在这里插入图片描述
线性回归所得为下图红色直线

代码实现：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

def getData():
    fpath=r'E:\\Li\\python\\database\\data_linear.csv'
    data=pd.read_csv(fpath,header=None,names=['x','y'])
    x = np.array(data.x)
    y = np.array(data.y)
    return x,y

def loss(x,y,w):
    m = x.shape[0]
    v=y-np.dot(x,w)
    return np.dot(v.T,v)/(2*m)

def BGD(x, y, step_size=0.0001, max_iter_count=10000, tol = 1e-6):
    m = x.shape[0]
    d = (len(x.shape)>1 and [x.shape[1]] or [1])[0]    
    x = np.concatenate(([x], [np.ones(m)]), axis=0).T
    w = np.ones((x.shape[1],))
    J0 = loss(x,y,w)
    n_iter = 0
    while  n_iter < max_iter_count:
        n_iter += 1
        c = y - np.dot(x,w)
        vtmp = np.zeros((d+1,m))
        for i in range(m):
            vtmp[:,i] = c[i] * x[i,:]
        dw = np.sum(vtmp,axis=1)
        dw = step_size * dw /m
        w += dw
        J1 = loss(x,y,w)
        if abs(J1-J0) < tol: break
        J0 = J1
    return w,n_iter

if __name__ == '__main__':
    x, y = getData()
    plt.scatter(x,y)
    w,n_iter=BGD(x,y)
    x1 = np.linspace(min(x),max(x), 100)
    x2 = np.ones((100,))
    xi = np.concatenate(([x1], [x2]), axis=0).T
    yi = np.dot(xi, w)
    plt.plot(x1,yi,'r-')

catinlbb

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习中常用的梯度下降法

机器学习中常用梯度下降法写在前面梯度下降法算法批量梯度下降法（BGD）新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导...
复制链接

扫一扫