【CV】吴恩达机器学习课程笔记 | 第4章

本系列文章如果没有特殊说明,正文内容均解释的是文字上方的图片
机器学习 | Coursera
吴恩达机器学习系列课程_bilibili

4 多变量线性回归

4-1 多特征

在这里插入图片描述

  • 用n来表示数据集中特征的数量,这里有4个特征
  • y表示输出量
  • x ( i ) x^{(i)} x(i)来表示第i行的数据(输入量)
  • x j ( i ) x^{(i)}_j xj(i)来表示第i行的第j个特征

在这里插入图片描述
上图是新的假定函数

  • x 1 , x 2 , x 3 … … x_1,x_2,x_3…… x1x2x3是多个特征
  • 可以假定一个 x 0 ( i ) = 1 x^{(i)}_0=1 x0(i)=1,这样x和θ就可以写成两个列向量,假定函数就可以写作 θ T x θ^Tx θTx,即求两个矩阵的内积

4-2 多元梯度下降法

在这里插入图片描述

  • 如上图,从 θ 1 θ_1 θ1 θ n θ_n θn同步更新,同时特征 x x x需要对应

4-3 多元梯度下降法I——特征缩放

缩放

在这里插入图片描述

  • 这里假设只有两个特征值,特征 x 1 x_1 x1的取值范围是0-2000,特征 x 2 x_2 x2的取值范围是1-5,之后作出的代价函数的等高线图会是一个又高又瘦的椭圆,在进行梯度下降算法时,可能会反复震荡导致收敛太慢,如上图左侧
  • 将特征 x 1 x_1 x1 x 2 x_2 x2缩放,使这两个特征值的范围都在0-1,这样产生的代价函数的图像会变成向上图右侧一样的圆形,这样就会更快地收敛
  • 一般会让特征值处于 [ − 1 , 1 ] [-1,1] [1,1]范围内,如果比较接近 ± 1 \pm1 ±1也可以直接计算,不需要进行特征缩放
  • 如果特征值过小,如 [ − 0.0001 , 0.0001 ] [-0.0001,0.0001] [0.0001,0.0001]也需要进行缩放

归一化

在这里插入图片描述

  • 如特征 x 1 x_1 x1的平均值为1000,范围为 ( 0 , 2000 ] (0,2000] (0,2000],则可以将 x 1 x_1 x1化为 x 1 = s i z e − 1000 2000 x_1=\frac{size-1000}{2000} x1=2000size1000(在这里的例子里 x 1 x_1 x1是房屋的面积)
  • 公式为 x 1 = x 1 − μ 1 s 1 x_1=\frac{x_1-μ_1}{s_1} x1=s1x1μ1 s 1 s_1 s1为特征 x 1 x_1 x1原来的范围大小( m a x − m i n max-min maxmin), μ 1 μ_1 μ1为特征 x 1 x_1 x1原来的平均值

4-4 多元梯度下降法演练I——学习率α

在这里插入图片描述
上图左侧纵坐标为计算得出的代价函数的值,横坐标为进行梯度下降算法的次数,次数增加后,代价函数会越来越接近最小值,逐渐收敛
在这里插入图片描述

  • 如果图像为上图左侧的两种,说明学习率过大,导致像上图右侧一样的变化发散
  • 只要学习率足够小,一定会是收敛的(即进行梯度下降算法的次数越多,代价函数一定会越来越接近最小值)
  • 学习率过小会导致收敛速度变慢

取学习率时,通常是每隔大约三倍取,如 0.001 , 0.003 , 0.01 , 0.03.0.1 , 0.3 , 1 0.001,0.003,0.01,0.03.0.1,0.3,1 0.001,0.003,0.01,0.03.0.1,0.3,1

4-5 特征和多项式回归

在这里插入图片描述

  • 用多次的函数来拟合,依然使用之前的一次式,但让 x 1 = s i z e x_1=size x1=size x 2 = s i z e 2 x_2=size^2 x2=size2 x 3 = s i z e 3 x_3=size^3 x3=size3
  • 或者也可以令假定函数是 h θ ( x ) = θ 0 + θ 1 x 1 + θ 2 x 2 = θ 0 + θ 1 ( s i z e ) + θ 2 s i z e h_θ(x)=θ_0+θ_1x_1+θ_2x_2=θ_0+θ_1(size)+θ_2\sqrt{size} hθ(x)=θ0+θ1x1+θ2x2=θ0+θ1(size)+θ2size

4-6 正规方程(Normal Equation)(区别于迭代方法的直接解法)

最小二乘法
θ = ( X T X ) − 1 X T y θ=(X^TX)^{-1}X^Ty θ=(XTX)1XTy

  • 使用这个式子不需要进行特征缩放
  • X X X m × n m×n m×n的矩阵, m m m为数据数量(training examples), n n n为特征个数

在这里插入图片描述
上图是梯度下降算法和正规方程的优缺点

  • 在特征数量 n n n大于10000左右时,开始考虑不使用正规方程而使用梯度下降算法
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Fannnnf

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值