Python-梯度下降法实践

最新推荐文章于 2024-07-28 15:46:11 发布

一抹light

最新推荐文章于 2024-07-28 15:46:11 发布

阅读量1.5k

点赞数 7

分类专栏：机器学习文章标签： python 机器学习数据挖掘大数据

本文链接：https://blog.csdn.net/rettbbetter/article/details/129264204

版权

机器学习专栏收录该内容

3 篇文章 1 订阅

订阅专栏

Python-梯度下降法实践

一、前言
二、梯度下降法

一、前言

hello大家好这里是小L😊在这里想和大家一起学习一起进步。💪
这次笔记内容：学习梯度下降法python实现。以及讲解梯度下降法[GD],批量梯度下降法[BGD],随机梯度下降法[SGD],小批量梯度下降法[mini-batch梯度下降法].

二、梯度下降法

在这里插入图片描述

1.简介

梯度下降法用于不能用岭回归、Lasso回归求精确解(不存在逆矩阵)等情况。梯度下降法求迭代解，优化问题找到最优解。利用梯度下降法(没有逆矩阵，或者不好求的时候用)拟合直线y=wx+b,迭代算法需要赋一个初始值，n个特征有n+1个未知量。

梯度下降法最简步骤：
沿着负梯度方向不断迭代找到最优解

2.关于线性回归梯度下降法实践

当目标函数是凸函数时（目标函数对每一个变量具有一阶连续偏导数的函数），梯度下降法的解是全局最优解。一般情况下，其解不保证是全局最优解。梯度下降法的收敛速度也未必是很快的。
而线性回归是凸函数，所以可以求得最优解。

求y=x^2+2*x+5的最小值

(1)通过图像观察

import numpy as np
import matplotlib.pyplot as plt
x=linspace(-6,4,100)
y=x**2+2*x+5
plt.plot(x,y)

在这里插入图片描述
通过图像直接观察，在最小值点x为-1

#参数初始化
x_iter=3 #x的初始值
yita=0.06 #步长
y=2*x_iter+2
for i in range(0,100):
    x_iter=x_inter-yita*y
print(x_iter)

-0.9999887713587551

迭代100次发现求出来的值很接近1.

(2)通过描点观察

#将迭代的点描绘出来更直观形象
x_iter=3#设置x的初始值
yita=0.06#步长
count=0#记录迭代次数
while True:
    count+=1
    y_last=x_iter**2+2*x_iter+5
    x_iter=2*x_iter-yita*(2*x_iter+2)
    y_next=x_iter**2+2*x_iter+5
    plt.scatter(x_iter,y_last)
    if abs(y_next-y_last)<1e-100:
        break
print('最小值点x=',x_iter,'最小值y',y_next,'迭代次数n=',count）
x=linspace(-4,6,100)
y=x**2+2*x+5
plt.scatter(x,y)

最小值点x= -0.9999999594897632 最小值y= 4.000000000000002 迭代次数n= 144

在这里插入图片描述

(3)标注点

#每年都考梯度下降
x_iter=3
yita=0.06 #步长
count=0 #迭代次数
while True:
    count +=1
    y_last =x_iter**2+x_iter*2+5
    x_iter=x_iter-yita*(2*x_iter+2)
    y_next=x_iter**2+x_iter*2+5
    plt.scatter(x_iter,x_iter**2+x_iter*2+5)
    plt.annotate(count,(x_iter,x_iter**2+x_iter*2+5))#标注各个点
    if abs(y_next - y_last)<1e-100:  #或者x变化不大或者y变化不大，或者导数接近0
        break
print('最小值点x=',x_iter,'最小值y=',y_next,'迭代次数n=',count)   

x=np.linspace(-6,4,100)
y=x**2+2*x+5
plt.plot(x,y)

最小值点x= -0.9999999594897632 最小值y= 4.000000000000002 迭代次数n= 144

在这里插入图片描述

(4)改变步长观察

x_iter=3
yita=0.8 #将步长增大
count=0 #迭代次数
while True:
    count +=1
    y_last =x_iter**2+x_iter*2+5
    x_iter=x_iter-yita*(2*x_iter+2)
    y_next=x_iter**2+x_iter*2+5
    plt.scatter(x_iter,x_iter**2+x_iter*2+5)
    if abs(y_next - y_last)<1e-100:  #或者x变化不大或者y变化不大，或者导数接近0
        break
print('最小值点x=',x_iter,'最小值y=',y_next,'迭代次数n=',count)   

x=np.linspace(-6,4,100)
y=x**2+2*x+5
plt.plot(x,y)

最小值点x= -1.000000008911663 最小值y= 4.0 迭代次数n= 39

在这里插入图片描述
可以发现步长改变后，虽然点会震荡，但不会影响最终结果。

三、批量梯度下降算法[BGD]线性回归代码实现

1.介绍

批量梯度下降法(BGD)求解，一次性把所有数据放进去（求和符号），更新一次参数，很耗时，但是表现比较稳定（平稳）

2.代码实现

(1)生成回归数据

#生成回归数据
from sklearn.datasets import make_regression
X,y=make_regression(n_sample=100,n_features=1,noise=50,random_state=8)
plt.scatter(X,y)

在这里插入图片描述

(2)拆分数据集和测试集

#拆分数据集与测试集
#数据量特别大时，用不了网格搜索，用梯度下降法
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3,random_state=8)

plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus'] = False
plt.subplot(1,2,1)#分布图
plt.scatter(X_train,y_train,c='g')
plt.title('训练集散点图')
plt.subplot(1,2,2)
plt.scatter(X_test,y_test,c='orange')
plt.title('测试集散点图')

在这里插入图片描述

(3)利用梯度下降法拟合直线y=wx+b

#利用梯度下降法(没有逆矩阵，或者不好求的时候用)拟合直线y=wx+b,迭代算法需要赋一个初始值，n个特征有n+1个未知量
#利用梯度下降法拟合直线y=wx+b
#参数初始化
w=1 #直线斜率
b=-100 #直线截距
lr=0.001 #学习率leqarning rate（步长）
#训练集70
#求和
sum_w=0
sum_b=0
for i in range(len(X_train)):
    y_hat =w*X_train[i]+b
    sum_w+=(y_train[i]-y_hat)*X_train[i]
    sum_b+=y_train[i]-y_hat #最后乘以1
#更新w和b的值,更新一次
w+=lr*sum_w
b+=lr*sum_b
w,b

参数更新一次，输出结果为：

(array([8.47987404]), array([-92.20644646]))

增加epochs参数，调整训练次数，理论上训练次数越多，损失函数越小准确度越高

#利用梯度下降法(没有逆矩阵，或者不好求的时候用)拟合直线y=wx+b,迭代算法需要赋一个初始值，n个特征有n+1个未知量
#利用梯度下降法拟合直线y=wx+b
#参数初始化
epochs=1000#更新很多次，优化训练次数
#理论上训练次数越多，损失函数越小准确度越高
w=1#直线斜率
b=0#直线截距
lr=0.001#学习率leqarning rate（步长）
for i in range(epochs):
    #训练集70
    #求和
    sum_w=0
    sum_b=0
    for i in range(len(X_train)):
        y_hat=w*X_train[i]+b
        sum_w=(y_train[i]-y_hat)*x_train[i]
        sum_b=y_train[i]-y_hat  #最后乘以1
    #更新w和b的值,更新一次
    w +=lr*sum_w
    b +=lr*sum_b
    w,b

迭代1000次，输出结果为：

(array([67.2160481]), array([4.81391939]))

可以看出训练次数不一样，参数还是有很大改变。

(4)将迭代结果可视化查看，拟合线性回归图

xx=np.linspace(-4,4,100)
yy=w*xx+b
plt.scatter(X_train,y_train,c='g')
plt.plot(xx,yy)
plt.title('线性回归拟合图')
plt.legend(('拟合直线','训练集散点图'))

在这里插入图片描述
可以看出最后直线拟合效果不错，散点均匀分布在直线两端

(5)计算训练集和测试集上均方误差

#计算在训练集和测试集上的均方误差
total_loss_train=0
for i in range(len(X_train)):
    y_hat=X_train[i]*w+b
    total_loss_train+=(y_hat-y_train[i])**2
total_loss_test=0
for i in range(len(X_test)):
    y_hat=X_test[i]*w+b
    total_loss_test+=(y_hat-y_test[i])**2
print(total_loss_train/len(X_train),total_loss_train/len(X_test))