一、定义
我们依旧以房价预测为例,生活中,决定房价的不仅仅是面积一个特征,可能还与楼层等许多因素有关,当有多个特征时,假设函数为:h(x)=θ0+θ1x1+θ2x2+.....+θnxn
为了方便定义,我们假设有x0=1,这样假设方程就可以写为:
这就是所谓的多元线性回归,也就是用多个特征变量来预测y值。
二、多元梯度下降法
1.代价函数:(θ表示向量)
2.与(二)相同,只是要同时更新n个θ
三、特征缩放
用一定的方法,将数据特征缩小到某个范围内,通过特征缩放使梯度下降的速度变快,收敛所需的迭代次数更少
四、如何判断梯度下降算法已经收敛
1、绘制一个J(θ)随迭代发生的变化曲线,y轴表示J(θ)大小,x轴表示迭代次数,通过图像观察收敛是否完成。
2、通过算法:例如,J(θ)经过一次迭代后只下降了很小的ε,就说明已经收敛,ε的值自行规定,可以为等等,但由于这个阈值很难确定,因此我们通常还是使用图像判断。
五、学习率(learning date)α的选择
数学研究表明,只要α足够小,梯度一定会下降。但也不能选择太小的α,这样会导致梯度下降过慢,需要迭代很多次才能找到最小值。
六、特征选择和多项式回归
可以通过对一个特征曲线做变化,拟合出一个二元函数或三元函数等等。
对于特征的选择,我们有时可以将两个特征相乘(或其他变化),让他们合并成一个特征。