吴恩达ML——(四)多变量线性回归

本文探讨了房价预估问题中的多元线性回归模型,介绍了Hypothesis、Cost function和梯度下降法的运算技巧,强调了特征缩放对算法效率的影响。通过正规方程与梯度下降的对比,揭示了不同优化策略的优缺点和适用场景。
摘要由CSDN通过智能技术生成

相关概念

含义
多元线性回归Multivariate linear regression
特征缩放feature scaling
均值归一化mean normalization
多项式回归polynomial regression将多项式函数拟合到训练集中
正规方程normal equation求参数θ的解析解法

房价预估问题再整理

  1. m为样本数
  2. n为特征数

Hypothesis

h θ ( x ) = θ T x h_\theta(x) = \theta^Tx hθ(x)=θTx
θ = [ θ 0 , θ 1 … … θ n ] T , x = [ x 0 , x 1 , x 2 … … x n ] T , x 0 ≡ 1 \theta = [\theta_0,\theta_1……\theta_n]^T,x= [x_0,x_1,x_2……x_n]^T,x_0\equiv1 θ=[θ0,θ1θn]T,x=[x0,x1,x2xn]T,x01

Cost function

J ( θ ) = 1 2 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) 2 J(\theta) = \frac{1}{2m}\sum_{i = 1}^m{(h_\theta(x^{(i)})-y^{(i)})}^2 J(θ)=2m1i=1m(hθ(x(i))y(i))2

gradient descent

θ j ≔ θ j − α m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) ∗ x j ( i ) \theta_j\coloneqq\theta_j - \frac{\alpha}{m}\sum_{i = 1}^m{(h_\theta(x^{(i)})-y^{(i)})*x_j^{(i)}} θj:=θjmαi=1m(hθ(x(i))y(i))xj(i)

运算过程
在这里插入图片描述

梯度下降法运算技巧

特征缩放 feature scaling

对于特征x = [x0,x1,x2,x3……xn]T,尽量让每一种特征的取值范围都在一个相似的范围内。因为每个参数θj变化率和xj有关,所以当每一种特征的取值范围相似时,参数在梯度下降过程中变化幅度也相似,不会有太大差异,这样可以加快梯度下降算法的速度,减少迭代次数,尽快收敛到最小值。

具体操作
在这里插入图片描述

学习率 learning rate

学习率的影响

  • 当学习率很小的时候,梯度下降算法非常慢,效率低
  • 当学习率很大的时候,cost function可能不会收敛,反而增大

如何反映梯度下降算法的运行情况?

  • 借助迭代次数与J(θ)曲线,正常情况下,随着迭代次数的增加,J(θ)越来越小趋近于最小值。
  • 如果出现其他情况,排除代码本身逻辑错误,一般是学习率过大需要调整。
    在这里插入图片描述

学习率选择方法
尝试一系列的数据:0.001,0.003,0.01,0.03……

正规方程

可以迅速求解出当J(θ)最小的时候,对应的θ的值。不需要进行特征缩放。
θ = ( X T X ) − 1 X T y \theta = (X^TX)^{-1}X^Ty θ=(XTX)1XTy

公式推导

对比

在这里插入图片描述

梯度下降正规方程
优点* 当特征很多的时候,梯度下降法表现很好* 不需要学习率,不需要迭代
局限性*需要调整学习率,是迭代算法当n很大的时候,效率低(要进行大矩阵计算);不适用于一些其他复杂的学习算法
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值