吴恩达机器学习课程（一）之梯度下降原理

最新推荐文章于 2022-10-16 09:55:32 发布

gdutLHD

最新推荐文章于 2022-10-16 09:55:32 发布

阅读量1.1k

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/gdutLHD/article/details/78745998

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

梯度下降法

对于线性回归分析，我们将假设函数定义为 $h(x)=\theta_0+\theta_1x_1+\cdots+\theta_nx_n$
令 $x_{0}=1，记x=\begin{pmatrix} x_0& x_1 & \cdots & x_n \end{pmatrix} , \theta= \begin{pmatrix} \theta_0 \\ \theta_1 \\ \vdots \\ \theta_n \end{pmatrix}$
因为假设函数与参数 $\theta$ 有关，记 $h_{\theta}(x)=h(x)=x\theta$
对于每一个训练样本 $X^{(i)}=(x_{i0},x_{i1},\cdots,x_{in})$ ，假设函数与样本输出值存在误差 $h_{\theta}(X^i)-y^{i},那么损失函数定义为：\begin{equation*} J(\theta) = \frac{1}{2} \sum_{i=1}^n(h_{\theta}(X^i)-y^{i})^2 \end{equation*}$
目标函数定义为 $\mathop{\min}\limits_\theta \begin{equation*} J(\theta) = \frac{1}{2} \sum_{i=1}^n(h_{\theta}(X^i)-y^{i})^2 \end{equation*}$

梯度下降的迭代算法

梯度下降法的原理是每次沿着梯度的方向去更新参数，更新公式为 $\theta_i=\theta_i-\alpha\frac{\partial J(\theta)}{\partial \theta_i}$
其中 $\frac{\partial J(\theta)}{\partial \theta_i}=\sum_{i=1}^m(h_\theta(X^i)-y^i)\frac{\partial (h_\theta(X^i)-y^i)}{\partial \theta_i}$
对于样本数量m=1情况， $\frac{\partial (h_\theta(X^i)-y^i)}{\partial \theta_i}=\frac{\partial (\theta_0+\theta_1x_1+\cdots+\theta_nx_n-y^i)}{\partial \theta_i}=x_i$
所以参数 $\theta_i=\theta_i-\alpha(h_\theta(X^i)-y^i)x_i$
所以当样本数量大于1的情况，梯度下降过程为：
$\theta_i=\theta_i-\begin{equation*} \alpha\sum_{j=1}^m \end{equation*}h_\theta(X^j)-y^j)x_i^j$
由于每个参数的求解都需要整个样本数据集的迭代，称为批量随机梯度下降法，收敛速度慢
为了加快训练速度，采用随机梯度下降法，这种方法是通过随机选取一组样本进行参数迭代，训练速度较快，但是会存在噪声，使得参数迭代不是向着整体最优方向，此时可以采用小批量随机梯度下降，这种方法的是选取小批量样本进行参数的迭代，三种方法的python代码如下：

x = [[1,4],[2,5],[5,1],[4,2]]
y= [19,26,19,20]
theta = [1,1] #参数初始值
alpha = 0.1#学习率
max_iter = 10000 #最大迭代次数
iter_count = 0   #当前迭代次数
loss = 10        #当前误差
eps = 0.0001 #精度
err1 = [0,0,0,0] 
err2 = [0,0,0,0]
while loss>eps and iter_count<max_iter:
    loss = 0
    err1sum = 0
    err2sum = 0
    for j in range(4):
        predict_y = x[j][0]*theta[0]+x[j][1]*theta[1]
        err1[j] = (predict_y-y[j])*x[j][0]
        err1sum += err1[j]
        err2[j] = (predict_y-y[j])*x[j][1]
        err2sum += err2[j]
    theta[0] = theta[0]-alpha*err1sum/4 #损失函数一般要做平均
    theta[1] = theta[1]-alpha*err2sum/4
    for j in range(4):
        predict_y = x[j][0]*theta[0]+x[j][1]*theta[1]
        loss += (1/(2*4))*(predict_y-y[j])**2
    iter_count += 1
print(theta)


###随机梯度下降SGD
import random
x = [[1,4],[2,5],[5,1],[4,2]]
y= [19,26,19,20]
theta = [1,1] #参数初始值
alpha = 0.01#学习率
max_iter = 10000 #最大迭代次数
iter_count = 0   #当前迭代次数
loss = 10        #当前误差
eps = 0.0001 #精度
error = 0

while loss>eps and iter_count<max_iter:
    loss = 0
    i = random.randint(0,3)#随机抽取一组样本
    predict_y = x[i][0]*theta[0]+x[i][1]*theta[1]

    theta[0] = theta[0]-alpha*(predict_y-y[i])*x[i][0]#损失函数一般要做平均
    theta[1] = theta[1]-alpha*(predict_y-y[i])*x[i][1]
    for i in range(4):
        predict_y = x[i][0]*theta[0]+x[i][1]*theta[1]
        error = 0.5*(predict_y-y[i])**2
        loss += error
    iter_count += 1
print(theta)

###小批量随机梯度下降MBGD
import random
x = [[1,4],[2,5],[5,1],[4,2]]
y= [19,26,19,20]
theta = [1,1] #参数初始值
alpha = 0.01#学习率
max_iter = 10000 #最大迭代次数
iter_count = 0   #当前迭代次数
loss = 10        #当前误差
eps = 0.0001 #精度
error = 0

while loss>eps and iter_count<max_iter:
    loss = 0
    #这里随机选取2组样本更新theta
    i = random.randint(0,3)#随机抽取一组样本
    j = (i+1)%4
    predict_y0 = x[i][0]*theta[0]+x[i][1]*theta[1]
    predict_y1 = x[j][0]*theta[0]+x[j][1]*theta[1]
    theta[0] = theta[0]-alpha*1/2*((predict_y0-y[i])*x[i][0]+(predict_y1-y[i])*x[j][0])#损失函数一般要做平均
    theta[1] = theta[1]-alpha*1/2*((predict_y0-y[i])*x[i][1]+(predict_y1-y[i])*x[j][1])
    for i in range(4):
        predict_y = x[i][0]*theta[0]+x[i][1]*theta[1]
        error = 0.5/2*(predict_y-y[i])**2
        loss += error
    iter_count += 1
print(theta)

梯度下降的矩阵算法

定义梯度 $\triangledown_\theta J= \begin{pmatrix} \frac{\partial J}{\partial \theta_0} \\ \frac{\partial J}{\partial \theta_1} \\ \vdots \\ \frac{\partial J}{\partial \theta_n} \end{pmatrix}$
以下说明几个公式，不懂的可以去看线性代数的知识
$定义矩阵的迹trA=\sum_{i=1}^n A_{ii}，那么根据矩阵性质有 trA=trA^T，trAB=trBA, trABC=trCAB=trBCA,trABA^TC=CAB+C^TAB^T,tra=a(a\in R)$
对于整个数据集 $X=\begin{pmatrix} X^1 \\ X^2 \\ \vdots \\ X^m \end{pmatrix}, 其中X^i=\begin{pmatrix} x_{i0}& x_{i1} & \cdots & x_{in} \end{pmatrix}$
j假设函数 $h=X\theta=\begin{pmatrix} X^1 \theta \\ X^2 \theta\\ \vdots \\ X^m \theta \end{pmatrix}=\begin{pmatrix} h_{\theta}(X^1)\\\\ h_{\theta}(X^2)\\\\ \vdots \\\\ h_{\theta}(X^m) \end{pmatrix}$
$X\theta-y=\begin{pmatrix} h_{\theta}(X^1)-y^1\\ h_{\theta}(X^2)-y^2\\ \vdots \\ h_{\theta}(X^m)-y^m \end{pmatrix}$ ,所以损失函数计算公式为
$J(\theta)=\frac{1}{2}（X\theta-y）^T(X\theta-y)=\frac{1}{2} \sum_{i=1}^m(h_\theta(X^i)-y^i)^2$
$\triangledown_\theta J(\theta)=\frac{1}{2}\triangledown_\theta tr(X\theta-y）^T(X\theta-y) =\frac{1}{2}\triangledown_\theta tr(\theta^TX^TX\theta-\theta^TX^Ty-y^TX\theta+y^Ty)$
$\triangledown_\theta tr(\theta^TX^TX\theta)=\triangledown_\theta tr(\theta I\theta^TX^TX)=X^TX\theta I+X^TX\theta I^T=2X^TX\theta$
$\triangledown_\theta tr( y^TX\theta)=X^Ty,\triangledown_\theta tr(\theta^TX^Ty)=\triangledown_\theta tr(y^TX\theta)=X^Ty,\triangledown_\theta tr(y^Ty)=0$
所以 $\triangledown_\theta J(\theta)=\frac{1}{2}(2X^TX\theta-2X^Ty)=X^TX\theta-X^Ty$
当梯度等于0时，有 $\theta=(X^TX)^{-1}X^Ty$ ，这就是梯度下降的矩阵算法