03 代价函数梯度下降

本文介绍了梯度的概念及其在梯度下降法中的作用,梯度下降是用于最小化代价函数的有效算法,尤其在线性回归中。线性回归通过结合梯度下降寻找最佳拟合直线,其损失函数是凸函数,因此能确保找到全局最优解。此外,还讨论了学习率的选择以及最小二乘法作为替代优化方法。
摘要由CSDN通过智能技术生成

梯度

相信大家在高数中都学过什么是梯度。

梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。

也就是 g r a d    f grad \;f gradf

函数在一点沿梯度方向的变化率最大,最大值为该梯度的

梯度下降

可以那个代价函数 J 最小化的一种算法,当然也可以最小化其他函数,不仅仅是线性回归中的

方法

给定 θ 0 \theta_0 θ0 θ 1 \theta_1 θ1的初始值,不停的一点点地改变这两个值

沿着该点下降速度最快的方向进行一点点的移动,达到一个局部最优解

在这里插入图片描述

θ j : = θ j − α ∂ ∂ θ j J ( θ 0 , θ 1 )          ( f o r j = 0    a n d    j = 1 ) \theta_j:=\theta_j-\alpha \frac{\partial}{\partial \theta_j} J(\theta_0, \theta_1) \;\;\;\;(for j = 0 \;and \;j = 1) θj:=θjαθjJ(θ0,θ1)(forj=0andj=1)
α \alpha α称为学习率,用来控制梯度下降时,我们迈多大的步子

对于这个公式我们要同时更新这两个参数

在这里插入图片描述

我们反复做这一步,直到函数收敛

那么 α \alpha α怎么取呢?

显然取太大或者太小的定值是不好的,确定比较麻烦,太大了的话可能会发散,太小收敛速度又太慢

在这里插入图片描述

当随着导数的变小幅度也会变小,所以我们不需要额外的再次改变α的取值

在这里插入图片描述

线性回归算法

即用直线来拟合数据

它结合了代价函数和梯度下降

也就是将梯度下降运用到代价函数来

在这里插入图片描述

偏导求解过程:

在这里插入图片描述

那么将我们得到的结果带回梯度下降的公式中得到:
θ 0 : = θ 0 − α 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) θ 0 : = θ 0 − α 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) ∗ x ( i ) \theta_0:=\theta_0-\alpha \frac{1}{m}\sum_{i=1}^{m} (h_{\theta}(x^{(i)})-y^{(i)}) \\\\ \theta_0:=\theta_0-\alpha \frac{1}{m}\sum_{i=1}^{m} (h_{\theta}(x^{(i)})-y^{(i)}) *x^{(i)} θ0:=θ0αm1i=1m(hθ(x(i))y(i))θ0:=θ0αm1i=1m(hθ(x(i))y(i))x(i)
不断重复该过程直到收敛(注意同步更新!)

那么我们之间就看到了,梯度下降容易陷入局部最优

但是线性回归的图形三维是抛物面(多维可推广),本质就是凸函数,所以不存在这样的问题只有一个全局最优


陷入局部最优

但是线性回归的图形三维是抛物面(多维可推广),本质就是凸函数,所以不存在这样的问题只有一个全局最优


吴老师也提到了,不用迭代法也可以完成拟合操作,即用最小二乘法确定参数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值