01
线性回归
线性模型
损失函数
目标:找到θ使损失函数最小
用标准方程式直接计算θ最优解
标准方程推导过程
随机生成一些线性数据
用标准方程式求最优参数
用LinearRegression求解
标准方程计算复杂度,数据越多越慢
线性方程的计算复杂度O(m)
02
梯度下降
已知损失函数
Gradient Decent
初始θ是随机的,每一步θ都降低损失函数MSE。
学习率η(learning rate)的选择很重要,太小需要很久才收敛,太大会错过最佳值。损失函数MSE是一个凸函数,保证了我们找到的最小值是全局最小值。
损失函数是一个碗状,但如果特征没有归一化可能是一个细长的碗状。如下图左图所示,特征1和特征2有一样的scale,但是右图是未归一化的特征1和特征2。左边的图Gradient Descent algorithm很快的收敛找到最小值。右图所示,也会找到最小值,但整个路径更长,花费的时间更久。所以使用Gradient Descent 时一定要进行特征归一化。
Batch Gradient Descent
损失函数MSE的梯度向量
下降最快的负梯度向量
学习速率取值不同的模型效果