机器学习——梯度下降

最新推荐文章于 2024-08-15 17:21:12 发布

華灯初上

最新推荐文章于 2024-08-15 17:21:12 发布

阅读量286

点赞数

文章标签：梯度下降

本文链接：https://blog.csdn.net/baidu_41560343/article/details/94971374

版权

NLP 同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

Machine Learning

6 篇文章 0 订阅

订阅专栏

本文主要讲解梯度下降的数学推导，并假定读者已经了解梯度下降的思想，不适合没有任何基础的同学

推荐博客梯度下降

了解上述推荐博客后，我们来推导一下最简单的梯度下降方法

很明显，梯度下降主要用于解决无约束的最优化问题，我们以最小化损失函数为例
$\theta^* = \mathop{\arg \min_{\theta}L(\theta)}$

首先我们画出损失函数 $L(\theta)$ 的等高线（这里是用两个自变量为例的 $\theta_1,\theta_2$ ）
在这里插入图片描述
我们最终的目标就是求出 $\theta^*$ 使得 $L(\theta)$ 最小。

首先，我们随机的取一个点，假定为 $(\theta_1^{'},\theta_2^{'})$ ，接下来我们需要确定下一步我们要向哪边走。

此点的损失函数为（泰勒计数，仅仅展开到一阶）
$L(\theta) = L(\theta_1^{'},\theta_2^{'})+\frac{\partial L(\theta_1^{'},\theta_2^{'}) }{\partial \theta_1}(\theta_1 - \theta_1^{'}) + \frac{\partial L(\theta_1^{'},\theta_2^{'})}{\partial \theta_2}(\theta_2 - \theta_2^{'})$

首先明确目标是为了使得 $L(\theta)$ 最小，又因为 $L(\theta_1^{'},\theta_2^{'})$ ， $\frac{\partial L(\theta_1^{'},\theta_2^{'})}{\partial \theta_1}$ , $\frac{\partial L(\theta_1^{'},\theta_2^{'})}{\partial \theta_2}$ 都是常数，所以只能让 $\frac{\partial L(\theta_1^{'},\theta_2^{'}) }{\partial \theta_1}(\theta_1 - \theta_1^{'}) + \frac{\partial L(\theta_1^{'},\theta_2^{'})}{\partial \theta_2}(\theta_2 - \theta_2^{'})$ 取得最小值，首先我们在图中画出两个偏导数的向量（即 $\frac{\partial L(\theta_1^{'},\theta_2^{'})}{\partial \theta_1}$ , $\frac{\partial L(\theta_1^{'},\theta_2^{'})}{\partial \theta_2}$ )，由于本文以二维表示，故尚可在平面中画出，如果自变量维数增多，便很难进行可视化。
在这里插入图片描述
图中 $\triangle \theta_1 =\theta_1 - \theta_1^{'}$ ， $\triangle \theta_2 =\theta_2 - \theta_2^{'}$ ， $\frac{\partial L(\theta_1^{'},\theta_2^{'})}{\partial \theta_1}$ ， $\frac{\partial L(\theta_1^{'},\theta_2^{'})}{\partial \theta_2}$

由上图可以很明显的看出，只有 $(\triangle \theta_1 ,\triangle \theta_2)$ 与 $(u, v)$ 反向而且取得最长时，使得 $L(\theta)$ 最小。即为 $\eta (u,v)^T$

由于 $L(\theta)$ 的近似公式是由泰勒级数展开获得的，所以一定要要满足 $(\theta_1 - \theta_1^{'})\longrightarrow 0$ ， $(\theta_2 - \theta_2^{'})\longrightarrow 0$ 。
由此可以得出约束条件
$(\theta_1 - \theta_1^{'}) ^2+(\theta_2 - \theta_2^{'}) ^2 \le d^2$
其中 $\longrightarrow 0$

到此我们可以得出如果要让 $L(\theta)$ 最小，此时 $\theta_1$ ， $\theta_2$ 需要满足的条件为

$(\theta_1, \theta_2)^T = (\theta_1^{'}, \theta_2^{'})^T- \eta (u,v)^T$

即为本文第二个图，从一个圈，尽最大可能向最小点迈进，从而开始下一圈的迈进。

这就是我们套用的梯度下降的公式，经过公式推导可以看出由于受到泰勒级数条件的限制，其中的 $\eta$ 应该是趋近于0的，这样才能保证寻找局部最优值。但是在实际的训练过程中， $\eta$ 的值可以认为进行设定，这样也就能解释为何在 $\eta$ 过大的时候，会使得损失函数 $L(\theta)$ 增大。

下面用python 写一下梯度下降
本文以 $f (x) = b + w x$ 为例
其损失函数为 $L(w,b) = (y_i - f(x_i))^2$
偏导数为
$\frac{\partial L}{\partial w} = 2*(y_i - f(x_i))*x_i$
$\frac{\partial L}{\partial b} = 2*(y_i - f(x_i))*1$

由梯度公式得

$learn\_ratio \times \frac{\partial L}{\partial b}$
$learn\_ratio \times \frac{\partial L}{\partial w}$

每次更新去平均值作为更新值

# Gradient Decesent
# @author Hongchuan CAO

import numpy as np
import matplotlib.pyplot as plt

class SGD:

    def __init__(self):
        # self.x_data = [338., 333., 328., 207., 226., 25., 179., 60., 208., 606.]
        # self.y_data = [640., 633., 619., 393., 428., 27., 193., 66., 226., 1591]
        self.x_data = [100, 80, 120, 75, 60, 43, 140, 132, 63, 55, 74, 44, 88]
        self.y_data = [120, 92, 143, 87, 60, 50, 167, 147, 80, 60, 90, 57, 99]


    def regression(self):
        self.b = 10
        self.w = 1
        iteration = 100000  # 迭代次数
        ratio = 0.00001     #学习率
 
        for i in range(iteration):
            w_ratio = 0
            b_ratio = 0

            for j in range(len(self.x_data)):
                w_ratio = w_ratio + 2*(self.b+self.w*self.x_data[j]-self.y_data[j])*self.x_data[j]
                b_ratio = b_ratio + 2*(self.b+self.w*self.x_data[j]-self.y_data[j])*1
			
			#将样例数据取平均
            self.w = self.w - ratio* w_ratio /len(self.x_data) 
            self.b = self.b - ratio* b_ratio /len(self.x_data)
            #print(str(i)+" "+str(self.w) + " " + str(self.b))



    def plot1(self):
    	#离散数据点
        plt.scatter(self.x_data,self.y_data)

        xx = [x for x in np.arange(0,max(self.x_data),1)]
        yy = []
        for i in range(len(xx)):
            yy.append(self.w*xx[i]+self.b)
		# 回归
        plt.plot(xx,yy,'b-')
        plt.show()


if __name__ == '__main__':
    obj = SGD()
    obj.regression()
    obj.plot1()