n 特征的数量
x i x^i xi为第i个值
x j i x_j^i xji为第j个特征的第i个值
假设函数
多元梯度下降法
对比
在假设中,设
x
0
x_0
x0 = 1,
x
0
i
x_0^i
x0i = 1,因此梯度下降法是多元梯度下降法的一般形式。
特征缩放
如左图,
x
1
∈
x_1\in
x1∈ (0,2000),
x
2
∈
x_2\in
x2∈ (0,5) 得到的图形是极为细长的椭圆,梯度下降的过程中极为缓慢且来回震荡需要更多的时间。
因此,选择特征缩放使特征的值的范围更为接近,得到的图像更“圆”,且梯度下降算法能够更快的收敛。
特征范围不要太大,也不要太小
代价函数随迭代步数增加的变化曲线
学习率
特征和多项式回归
以房价预测为例
这里不使用二次多项是因为房价不会因为size增大而下降,因此选择三次多项式