1.关于多变量的表示
如上图所示,x表示训练集,n为总数,i为第几个训练集,j为第j个特征。
2.多变量假设函数的表现形式:(多变量线性回归)
3.多元变量梯度下降:
没啥可说的,跟一元一样
多元梯度下降运算中的实用技巧:
1.特征缩放(feature scaling)
当特征值之间比例差距很大的时候,生成的等高线曲面可能如图左一样,使得梯度(红色)下降异常缓慢。
为此我们进行特征缩放,尽量将特征化为1:1使图更圆。梯度下降的更为迅速。
一般来说,我们将特征的取值,取到接近-1到1之间。
(方法1:特征除以最大值)如上图所示
(方法2:将xi用xi-ui替换,使得特征具有0的平均值)先然x0不需要这样做
此外最好将其除以 特征的(max-min)
2.learning rate选取:
优缺点如上图所示。
如果发现j(Θ)迭代越来越大。则说明学习率取值过大。
每隔10倍取一个。然后观察最好的学习率
3.Normal equation:(正规方程)
其中:X为1列值为1的vector(其对应额外的特征变量)+xi的转置合并的矩阵。
正规方程的推倒:
正规方程与梯度下降相比较的优缺点:
优点:1.不需要设置初试的学习率α
2.不需要进行多次迭代
缺点:1.梯度下降法在拥有成千上百万个特征时都能用运行的很有校(而正规方程,计算逆矩阵的复杂度为O(n3))
当矩阵不可逆的时候正规方程如何使用?(留坑)