梯度下降法

chp的博客

已于 2022-09-06 23:01:51 修改

阅读量370

点赞数

分类专栏：机器学习文章标签：机器学习人工智能算法

于 2020-10-23 19:00:43 首次发布

本文链接：https://blog.csdn.net/qq_43851311/article/details/109247997

版权

梯度下降函数极小值线性回归批量梯度下降机器学习

关键词由CSDN通过智能技术生成

机器学习专栏收录该内容

12 篇文章 1 订阅

订阅专栏

基本思想：假设我们爬山，想要上山最快，我们应该从陡峭的地方上山，同样的，如果我们想要下山最快，也应当从陡峭的地方下山，这个下山的过程就是梯度下降。同样，如果从任意一点出发，需要最快搜索到函数最大值，那么我们也应该从函数变化最快的方向搜索。函数变化最快的方向就是函数的梯度，也就是函数的导数。
梯度下降法的步骤：函数 $y=f(x1,x2,....,x_n)$ 1.确定参数 $\eta和\varepsilon$ ， $\eta$ 为学习率。 $\eta$ 大小的选取要合适，太大了会错过极值，太小了迭代太慢。2.求当前位置的偏导数 $f^\prime(x_{m0})=\frac{\partial y}{\partial x_m}$ 3.修改当前函数的参数值 $x^\prime=x_m-\eta*\frac{\partial y}{\partial x_m}(x_{m0})$ 4.判断参数变化小于 $\varepsilon$ ，则结束迭代，否则执行2，3两步不断迭代。
实例：任给一个初始出发点，设为 $x_0=-4$ ，利用梯度下降法求函数 $y=\frac{x^2}{2}-2x$ 的极小值。
在这里插入图片描述

（1）首先给定两个参数： $\eta=0.9，\varepsilon=0.01$
（2）计算导数： $\frac{dy}{dx}=x-2$
（3）计算当前导数值： $y^\prime=-6$
（4）修改当前参数： $x^\prime=x-\eta*\frac{dy}{dx}=1.4$
（5）不断执行（3）（4）直到满足终止条件。

代码实现：

x=-4
y=16
alpha=0.9
epsilon=0.01
lx=[]#存步长
while True:
    xx=-1*alpha*(x-2)    
    x=x+xx    
    lx.append(xx)    
    if(xx<epsilon):        
    	break
print("最小点为X={},Y={}".format(x,1/2*x**2-2*x))
print("x方向每次前进步长：")
print(lx)

梯度下降的特点：
梯度下降是求解无约束最优化问题最常用的一种迭代方法，以当前位置负梯度为方向下降，每一步的主要操作是求目标函数的梯度向量（导数值），越接近目标值，步长越小，下降速度越慢。
在这里插入图片描述

设预测函数 $h(x)=\theta_0+\theta_1*x$ 定义损失函数(1) $J(\theta_0,\theta_1)=\frac{1}{2m}*\sum_{i=1}^m(h_\theta(x^i)-y^i)^2$ (2) $\frac{\partial J(\theta_0,\theta_1)}{\partial \theta_0}=\frac{1}{m}*\sum_{i=1}^m(h_\theta(x^i)-y^i)$ (3) $\frac{\partial J(\theta_0,\theta_1)}{\partial \theta_1}=\frac{1}{m}*\sum_{i=1}^m(h_\theta(x^i)-y^i)*x^i$ 更新 $\theta_0,\theta_1$ : $\theta_0=\theta_0-\frac{1}{m}*\sum_{i=1}^m(h_\theta(x^i)-y^i)$ $\theta_1=\theta_1-\frac{1}{m}*\sum_{i=1}^m(h_\theta(x^i)-y^i)*x^i$
手工推导过程：
在这里插入图片描述

批量梯度下降代码实现BGD：

#y=theta0+theta1*x
import matplotlib.pyplot as plt
import numpy as np
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签 
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
x=[1,3,6,7,12,13,14,15,16,17,20,23,24,]#面积
y=[5,7,9,11,17,19,23,25,27,32,36,37,40]#价格
print("原始数据：")
plt.scatter(x,y)
plt.xlabel("X")
plt.ylabel("Y")
plt.show()
m=len(x)
theta0=0
theta1=0
count=0
alpha=0.01
loss=[]
for time in range(1000):
    temp0=0#对theta0的求导
    temp1=0    
    count+=1    
    diss=0    
    for i in range(m):        
    	temp0+=(theta0+theta1*x[i]-y[i])/m        
    	temp1+=(theta0+theta1*x[i]-y[i])*x[i]/m    
    for i in range(m):        
    	theta0 = theta0 - alpha*((theta0+theta1*x[i]-y[i])/m)         
    	theta1 = theta1 - alpha*((theta0+theta1*x[i]-y[i])/m)*x[i]
    	#    for i in range(m):
    	#        diss+=0.5*((theta0+theta1*x[i]-y[i])**2)/m    
    loss.append(diss)
print("一次线性回归函数为y={}x+{}".format(theta1,theta0))
#print("损失函数变化：")
#plt.scatter(range(1000),loss)
#plt.xlabel("X")
#plt.ylabel("Y")
#plt.show()
lx=np.linspace(0,25)
ly=theta0+theta1*lx
plt.plot(lx,ly)
plt.scatter(x,y)
plt.xlabel("X")
plt.ylabel("Y")
plt.show()