(吴恩达机器学习)多变量线性回归

前面的博客我们已经谈过梯度下降算法的核心思想,并在单一变量的情况下做了说明。理解了单变量线性回归那么多变量线性回归就很简单了,思想和操作都是一样的,只不过更一般化了而已。这里我们主要说明一些多变量梯度下降算法的使用技巧和正规方程的使用。

1特征缩放:

对于多变量的情况,每个变量的含义都不相同,变量的取值范围和量度也都不太一样,所以我们不能仅仅将变量的原始值带入进行研究。

例如:对于房价问题,房子有面积和楼层两个属性变量,但是面积可以很大,1000都可以,但是楼层最大也就几十。若两个属性值都为100,按照相同的度量看待这两个数值的话,会有一定的’曲解’,100对于面积而言其实算小的,但是100对于楼层而言就非常非常大了。所以我们应该按照不同的度量来看待不同的属性值,或者统一化。

特征缩放就是进行统一化:*特征缩放就是使得各属性变量值在相近的范围内,便于代价函数迭代收敛。否则等高线图会十分的细窄,会使得收敛的速度变得很慢。

特征缩放公式: xi = (xi - μi)/Si 其中xi为原属性值,μi为x的平均值,Si为x的范围即最大值-最小值。
公式的含义就是用每个属性值在整个属性值范围内所占的比重来度量该属性值的影响。

2学习率α如何选择:

学习率α的取值,决定了代价函数是否会根据迭代而趋于收敛和趋于收敛所要迭代的次数。若学习率过大,代价函数将不会收敛,一般随着迭代的进行,代价函数不是一直在减小,那么可能的原因就是学习率过大,我们应该选择更小的学习率α。但是只要学习率足够小,代价函数一定是趋于收敛的,不过α太小会使得代价函数趋于收敛前的迭代次数变得很大,效率低下,所以我们应该在收敛的情况下选择尽可能大的α,那样会使得迭代的次数减少。所以我们对于学习率α取值的选择方法是:先选择较小的学习率,例如0.001,然后3倍3倍的往上加大,直到选择一个尽可能大的学习率α出来。

正规方程:
不用进行迭代,一步完成最有θ的求解。(类似于二次函数求最小值点,直接求导数为0的点即可)

梯度下降算法是通过不断地迭代更新,从而达到最优点。但是对于一个凸函数而言,我们可以使用正规方程还求解。对于最优点有这样的特性:它的导数必定为0,所以我们不用进行梯度下降迭代,而是直接求出所有变量的导数然后置0,求解方程就可,(类似于二次函数求最小值点,直接求导数为0的点即可),进过计算结果如下:

这里写图片描述

对于上面式子X’X的逆的求解(X’表示X的转置)问题:不过是否可逆,在octave中直接使用pinv即可。

X’X不可逆的原因:
1存在多余的属性,及等价含义的属性重复出现
2属性数目较多,m

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值