机器学习(3)多元梯度下降法

多元梯度下降法

1.定义与公式

当特征量不只一个时,例如下图的案例:
在这里插入图片描述
预测房屋价格时,需要考虑多种因素,我们建立如下的线性回归模型:
在这里插入图片描述
此时要把θ和x都看成时两个向量。
在这里插入图片描述
为了寻找数据的最佳函数匹配,求对应的损失函数的最小值:
在这里插入图片描述
为了方便计算右边最好除以2m,而不是2。

由上一节的单变量线性回归的梯度下降算法容易推导出多元的情况:
在这里插入图片描述
其实无论单变量还是多元公式都是一样的,只是θ0 中的x0为1,计算过程:
在这里插入图片描述
每次下降迭代都要计算全部的θ值后再带入回归模型hθ(x)。

2.特征缩放

以两个特征量的情况为例,当两个特征量的取值范围差距过大会出现下面的情况:
在这里插入图片描述
它们的参数θ和损失函数J(θ)的等高图会呈现下面情况:
在这里插入图片描述
变得又瘦又长,此时我们需要进行特征缩放:

方法一

每个特征量除以它的范围后,此时的等高图会变得易于处理。
在这里插入图片描述
只要放缩到(-1到1)差不多的范围就行,但特征量在(-2到5)这样的范围也可以,无需放缩。但(-188到200)这样的就需要放缩。

方法二

均值归一化,放缩到(-0.5 0.5)。
在这里插入图片描述

3.学习率α的选择

当我们不断迭代使局部minJ(θ)不断变小时,随着迭代次数增加,当minJ(θ) 减少少于(10^-3)时,minJ(θ) 可视为已经收敛,找到最佳函数匹配。
在这里插入图片描述
α过大,可能导致J(θ)有可能不会收敛。出现下面情况可视为α过大,需要减小α的选值。
在这里插入图片描述
α过小,使每次迭代变化很小,导致迭代次数过慢,可能长时间都不会收敛。
α的选择:通过交叉验证进行选择。可以尝试1,0.1,0.01,0.001,0.0001等取值,画出J(θ)与迭代次数的曲线,找到合适的α。也可以两个α之间再取个值,比如0.1和0.01之间取一个0.0.3等方法。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值