机器学习教程篇1 -- 线性回归（下）梯度下降法

最新推荐文章于 2022-10-17 13:05:55 发布

山顶洞人乌拉

最新推荐文章于 2022-10-17 13:05:55 发布

阅读量679

点赞数 3

分类专栏：机器学习文章标签：机器学习算法

本文链接：https://blog.csdn.net/weixin_37820368/article/details/108147764

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

机器学习 -- 线性回归

一、梯度下降法

“故不积跬步，无以至千里；不积小流，无以成江海”
线性回归的第二部分，梯度下降法

一、梯度下降法

1、概念

    在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降（Gradient Descent）是最常采用的方法之一。这是一种很重要的优化方法，需要进行好好的理解，后续的深度学习中常常用用到类似的思想，像随机梯度下降(SGD)。
    前面的最小二乘法，一般适用于一元的线性方程，得出一条确定的直线，对于多元的方程，往往采用梯度下降的方式，去近似得到近似解。
    首先，你得知道梯度的概念，在微积分里面，对多元函数的参数求∂偏导数，把求得的各个参数的偏导数以向量的形式写出来，就是梯度。如f(x,y)，其梯度向量就是(∂f/∂x, ∂f/∂y)T，简称grad f(x,y)。梯度向量的几何意义，就是代表了函数变化最快的方向。
    即沿着梯度向量的方向，就是函数增加最快的方向，更容易找到函数的最大值。这是整个梯度下降法的基本思想。
在这里插入图片描述
            图片来自互联网上
    从公式出发，∂J(θ)/∂θ是我们要求出来的梯度，表示沿着梯度向量的方向，更加容易找到函数的最大值，那么反过来，-∂J(θ)/∂θ表示表示沿着梯度向量的方向，更加容易找到函数的最小值。
在这里插入图片描述
            图片来自互联网上

2、对比分析

梯度下降法和最小二乘法

    这两种方法都是在给定的数据下使得损失函数最小，这里主要分析它们的区别。
    损失函数：梯度下降可以选取其他损失函数，而最小二乘一定是平方损失函数，找到的一定是全局的最小值，但是有的函数的没解的。
    实现方法：梯度下降是一种迭代法，从图片也可看出是一种趋近的方式，找到的一般是局部最小。只有在目标函数是凸函数时才是全局最小。

3、代码

###0. 引入依赖
import numpy as np
import matplotlib.pyplot as plt

### 1. 导入数据（data.csv）
points = np.genfromtxt('data.csv', delimiter=',')

points[0,0]

# 提取points中的两列数据，分别作为x，y
x = points[:, 0]
y = points[:, 1]

# 用plt画出散点图
plt.scatter(x, y)
plt.show()

###2. 定义损失函数
# 损失函数是系数的函数，另外还要传入数据的x，y
def compute_cost(w, b, points):
    total_cost = 0
    M = len(points)
    
    # 逐点计算平方损失误差，然后求平均数
    for i in range(M):
        x = points[i, 0]
        y = points[i, 1]
        total_cost += ( y - w * x - b ) ** 2
    
    return total_cost/M

###3. 定义模型的超参数 前面几步基本是一样的，是一些常规的设置
alpha = 0.0001
initial_w = 0
initial_b = 0
num_iter = 10

###4. 定义核心梯度下降算法函数
def grad_desc(points, initial_w, initial_b, alpha, num_iter):
    w = initial_w
    b = initial_b
    # 定义一个list保存所有的损失函数值，用来显示下降的过程
    cost_list = []
    
    for i in range(num_iter):
        cost_list.append( compute_cost(w, b, points) )
        w, b = step_grad_desc( w, b, alpha, points )
    
    return [w, b, cost_list]

def step_grad_desc( current_w, current_b, alpha, points ):
    sum_grad_w = 0
    sum_grad_b = 0
    M = len(points)
    
    # 对每个点，代入公式求和
    for i in range(M):
        x = points[i, 0]
        y = points[i, 1]
        sum_grad_w += ( current_w * x + current_b - y ) * x
        sum_grad_b += current_w * x + current_b - y
    
    # 用公式求当前梯度
    grad_w = 2/M * sum_grad_w
    grad_b = 2/M * sum_grad_b
    
    # 梯度下降，更新当前的w和b
    updated_w = current_w - alpha * grad_w
    updated_b = current_b - alpha * grad_b
    
    return updated_w, updated_b

###5. 测试：运行梯度下降算法计算最优的w和b
w, b, cost_list = grad_desc( points, initial_w, initial_b, alpha, num_iter )

print("w is: ", w)
print("b is: ", b)

cost = compute_cost(w, b, points)

print("cost is: ", cost)

plt.plot(cost_list)
plt.show()

在这里插入图片描述

### 6. 画出拟合曲线
plt.scatter(x, y)
# 针对每一个x，计算出预测的y值
pred_y = w * x + b

plt.plot(x, pred_y, c='r')
plt.show()

在这里插入图片描述
我的guihub：https://github.com/BZQLin/Linear-regression

山顶洞人乌拉

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录