吴恩达机器学习(四)——多变量线性回归

本文介绍了多变量线性回归,包括多维特征、多变量梯度下降、特征缩放和学习率的影响。通过特征缩放优化梯度下降的收敛速度,确保不同特征在相近范围内,提高算法效率。学习率的选择对梯度下降的收敛至关重要,过小可能导致慢速收敛,过大可能导致不收敛或收敛慢。
摘要由CSDN通过智能技术生成

1. Multiple features(多维特征)

我们提到过的线性回归中,我们只有一个单一特征量(变量)——房屋面积x。我们希望使用这个特征量来预测房子的价格。我们的假设在下图中用蓝线划出:

在这里插入图片描述
不妨思考一下,如果我们不仅仅知道房屋面积(作为预测房屋价格的特征量(变量)),我们还知道卧室的数量、楼层的数量以及房屋的使用年限,那么这就给了我们更多可以用来预测房屋价格的信息。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

即,支持多变量的假设为:

在这里插入图片描述

这个公式中有n+1个参数和n个特征量(变量),为了使得公式能够简化一些,引入x0=1,则公式转化为:

在这里插入图片描述

可以简化为如下形式:

在这里插入图片描述

2. Gradient descent for multiple variables(多变量梯度下降)

在这里插入图片描述

在这里插入图片描述

3. Gradient descent in practice:Feature Scaling(特征缩放)

1、下面我们来介绍一些关于梯度下降运算中的实用技巧,首先是特征缩放 (feature scaling) 方法。

如果你有一个机器学习问题,并且这个问题有多个特征。如果你能确保这些特征都处在一个相近的范围(确保不同特征的取值在相近的范围内),这样梯度下降法就能更快地收敛。

具体来说,假如你有一个具有两个特征的问题,其中 x1 是房屋面积大小,它的取值在0到2000之间,x2 是卧室的数量,这个值取值范围在1到5之间。如果你画出代价函数J(θ) 的轮廓图:

在这里插入图片描述

那么这个轮廓看起来,应该是如上图左边的样子。

J(θ) 是一个关于参数 θ0 、θ1 和 θ2 的函数,我在此处忽略 θ0 (暂时不考虑 θ0)。并假想一个函数的参数,只有 θ1 和 θ2,但如果变量 x1 的取值范围远远大于 x2 的取值范围的话,那么最终画出来的代价函数 J(θ) 的轮廓图就会呈现出这样一种非常偏斜并且椭圆的形状。2000和5的比例会让这个椭圆更加瘦长。

所以

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大鹏小站

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值