【机器学习 - 6】:梯度下降法(第一篇)

梯度下降法的理解


梯度下降法不是一个机器学习算法,既不是在做监督学习,也不是在做非监督学习,是一种基于搜索的最优化方法。

作用:最小化一个损失函数
梯度上升法:最大化一个损失函数

图解

  1. 先给出一个损失函数J,在二维平面中画出的曲线如下图所示。蓝点处画的一条直线是在这一点上的导数,为负值,当theta增大,导数增大,在最低处导数为0,即为极值点,为极小值。
    在这里插入图片描述
  2. 由上图可看出,曲线向下凹陷,可将曲线比作一个山谷,蓝点为一个球,球滚落的速度为eta(学习率),在蓝点处,theta变化相同的值时,步长会逐渐变小,因为eta逐渐变小。
    在这里插入图片描述
  3. eta叫做学习率(learning rate),是梯度下降法的一个超参数。eta的取值影响我们求得最优解的速度,eta的取值过小,收留太慢,eta取值过大,可能甚至得不到最优解。
    在这里插入图片描述
    在这里插入图片描述

极值点和最值点

并不是所有的函数都有唯一的极值点,线性回归的损失函数具有唯一的最优解。
在这里插入图片描述

梯度下降法的求导运算


以上主要是以一个维度进行讲解,当在多维时求损失函数,其求法如下。在这里插入图片描述

公式推导

  1. 我们的主要目标是使损失函数达到最小,于是我们可以通过公式的推导,得出最终的公式。
    在这里插入图片描述
  2. 对损失函数进行求导,并列为矩阵形式。
    在这里插入图片描述
  3. 为什么要除以m?因为求和运算后本身会对数据做一个扩大的处理,有可能在我们特征数量增大的时候,求得的导数结果变得比较厉害,而求导后我们希望得到的数据跟原来的数据有很大的关系,所以要除以m。
    在这里插入图片描述

梯度下降法的实现

  1. 先创建一个损失函数
import numpy as np
import matplotlib.pyplot as plt

plt_x = np.linspace(-1,6,141)
plt_y = (plt_x-2.5)**2-1
plt.plot(plt_x, plt_y)
plt.show()

在这里插入图片描述

  1. 写出求导函数和求值函数
def dj(theta):
    return 2*(theta-2.5) # 传入theta,求theta点对应的导数

def j(theta):
    return (theta-2.5)**2-1 # 传入theta,求theta点对应的值
  1. 找到极值点,获得对应的theta值
eta = 0.1 # 设置学习率
theta = 0.0
epsilon = 1e-8
theta_history = [theta] # 存储移动步数
while True:
    gradient = dj(theta) # 求导数
    last_theta = theta
    theta = theta - gradient*eta # theta减去步长
    theta_history.append(theta)
    if np.abs(j(theta) - j(last_theta)) < epsilon: # 小于epsilon认为到达极值点
        break
print(theta)
print(dj(theta))
print(j(theta))
print(len(theta_history))

在这里插入图片描述

  1. 在损失函数的曲线上画出移动的轨迹
plt.plot(plt_x, plt_y)
plt.plot(theta_history, [(i-2.5)**2-1 for i in theta_history], color='r', marker='+')
plt.show()

在这里插入图片描述

  1. 对以上程序进行函数封装
def gradient_descent(eta, initial_theta, n_iters=1e3, epsilon=1e-8): # n_iters为最大迭代次数
    theta = initial_theta
    theta_history = [initial_theta]
    i_iter = 1
    def dj(theta):
        try:
            return 2*(theta-2.5) # 传入theta,求theta点对应的导数
        except:
            return float('inf') # 返回一个无穷大的值
    def j(theta):
        return (theta-2.5)**2-1 # 传入theta,求theta点对应的值
    
    while i_iter<n_iters:
        gradient = dj(theta)
        last_theta = theta
        theta = theta - gradient*eta
        theta_history.append(theta)
        if np.abs(j(theta) - j(last_theta)) < epsilon:
            break
        i_iter += 1
    return theta_history

def plot_gradient(theta_history):
    plt.plot(plt_x, plt_y)
    plt.plot(theta_history, [(i-2.5)**2-1 for i in theta_history], color='r', marker='+')
    plt.show()

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

街 三 仔

你的鼓励是我创作的最大动力~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值