P5误差来源
一、误差来源于两方面:
1:偏差—准: 根据样本拟合的模型输出预测结果的期望与样本真实结果的差距,即在样本上拟合的好不好。要求low bias,则需要复杂化模型或增加模型的参数,这容易过拟合(overfitting),过拟合则为high variance,点很分散。
2:方差—确: 样本上训练出来的模型在测试集上的表现,即点的集中性。low varience需要简化模型,减少模型的参数,但容易欠拟合(unfitting),欠拟合则为high bias,点偏离中心,但很集中。
二、模型选择:不能通过training data训练后选择出Error最小的model,因为输入testing data后,选择的model的error并非是最小的。可以选择交叉验证或者N-fold交叉验证进行模型选择。
P6梯度下降
梯度下降用于解min(loss function),确定最优model,其中:
1.learning rate可以手动(将参数改变对损失函数的影响进行可视化,根据可视化的图进行调整)或自适应调整(基础思想:随参数更新,LR逐渐减小)。
2.随机梯度下降法,不同于梯度下降法,损失函数不需要处理训练集所有的数据。且常规梯度下降法走一步要处理到所有N个例子,随机算法已经走了N步。(每处理一个例子就更新)
3.特征缩放
4.梯度下降的限制:local minima、plateau、saddle point