补充知识点:
偏差针对训练集来说:
偏差高,则欠拟合;偏差低,效果好;
方差针对测试集来说:
方差高,过拟合;方差低,效果好
奥卡姆剃刀原理说,在所有能解释数据的模型中,越简单的越靠谱。为了将过拟合的模型变为正好(Just Right),从图中直观上来看,只需要减小高次项的权重。
如果我们的正则化系数(lambda)无穷大,则权重w就会趋近于0。权重变小,激活函数输出z变小。z变小,就到了激活函数的线性区域,那么即使有很多层网络,他的每一层都是一个线性函数,总的来说就是线性网络,因此它不适宜解决过度拟合的非线性高方差的情况,从而降低了模型的非线性化程度,减小了过拟合。