一些问题
如果你让他们运行足够长的时间,是否所有的梯度下降算法都能得出相同的模型?
- 如果优化问题是凸的,并且假设学习率不是太高,那么所有梯度下降算法都将接近全局最优,并最终产生很相似的模型。除非逐步降低学习率,否则随机梯度下降和小批量梯度下降将永远不会真正收敛。相反,他们会一直围绕全局最优值来回跳跃。这意味着,即使你让他们运行很长的时间,这些梯度下降算法也会产生略微不同的模型。
假设您使用批量梯度下降,并在每个轮次绘制验证误差。如果你发现验证错误,持续上升,可能是什么情况,你该如何解决?
- 如果验证错误,在每个轮次后持续上升,只有一个可能性是学习率过高,并且算法再发散。如果训练错误也增加了,那么这显然是问题所在,你应该降低学习率。但是如果训练错误没有增加,则你的模型已经过拟合训练集。应该停止训练。
使用多项式回归时过拟合怎么办?
- 降低多项式阶数
- 对模型进行正则化
- 尝试增加训练集的大小