Andrew NG 《machine learning》week 2,class2 —Multivariaze Linear Regression

Andrew NG 《machine learning》week 2,class2 —Multivariaze Linear Regression

本节课主要是讲述有多个特征变量情况下的线性回归函数。

2.1 Mutiple Features

多特征变量和单特征变量的差别是参数threa和变量x均是一个n+1维的向量。

2.2 Gradient Descent For Multiple Variables

在多特征变量下线性回归函数的表达式如下图所示:
线性回归表达式
上图还展示了多特征变量的代价函数的表达式。
下图表示了梯度下降函数中参数的更新方法,需要注意的是这些参数需要同时更新。
参数更新

2.3 Gradient Descent in Practice I - Feature Scaling

对于有多个特征变量的情况下,特征变量的取值范围可能会出现不同,因此需要把特征向量的范围统一化。
特征变量的取值范围不同的时候会出现的一些情况,比如梯度下降比较缓慢,花的时间比较长等.
参数范围对比
如上图所示,左边的图是未经过参数范围统一化的梯度下降函数的情况,右边的是经过范围统一化之后的情况。
参数经过范围统一化之后的值如图中所示,会在一个较小我的范围内。(-1,1)。
这个参数统一化的方法可以叫做参数均值归一化(mean normalization)。
均值归一化
如上图所示,均值归一化是与平均值有关的,x的值等于x-average/range(就是数值的取值范围)。

2.4 Gradient Descent in Practice I - Learning Rate

本小节主要讨论关于梯度下降的一些实用的技巧。同时也将集中讨论Learning rate—α
对于梯度下降函数,主要是需要考虑以下问题:
梯度下降需要解决的问题

学习效率的选择对于梯度下降算法影响较大。
一般来说,梯度下降函数收敛的情况下是每次迭代之后的代价值的变化范围不超过一个较小的值。如下图所示,但是一般都会通过图形来观察函数是否已经达到收敛的状态。图形时较为直观的。如下图:
学习率的选择

同时学习率α的选择如果太小,那么收敛的时间会很长,如果选择太大,有可能错过最小值,并且之后代价值不断增加。所以太小、太大并不是很符合。如下图所示:学习率的选择不能过大也不能过小,一般是找出最大值(使代价值增长的学习率)和最小值,然后在这两者之间选择一个合适的学习率α。
学习率的选择

2.5 Feature and Polynomial Regression

本小节将会主要讲解多项式表达式。对于一些数据集,二次表达式没办法很好的拟合数据集,因此选用多项式表达式,有些时候可以用一个特征变量来表示。如下图:特征变量只是一个size,但是可以对其采用多次方的方法构成多项式。
多项式表达式
那么线性回归函数的表达式就会有如下两种方式。倍数和平方根的形式。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值