1.如果训练集具有数百万个特征,那么可以使用哪种线性回归训 练算法?
不能用标准方程和SVD,复杂度太高,使用梯度下降。
2.如果训练集里特征的数值大小迥异,哪种算法可能会受到影 响?受影响程度如何?你应该怎么做?
训练模型前科学缩放数据或直接使用标准方程/SVD
3.训练逻辑回归模型时,梯度下降会卡在局部最小值中吗?
不会
4.如果你让它们运行足够长的时间,是否所有的梯度下降算法都 能得出相同的模型?
不是,会有细微差别(来回横跳)
5.假设你使用批量梯度下降,并在每个轮次绘制验证误差。如果 你发现验证错误持续上升,可能是什么情况?你该如何解决?
如果训练错误也上升,可能是学习率过高算法发散,应该降低学习率;如果训练错误没有增加则已经过拟合训练,应该停止训练。
6.当验证错误上升时立即停止小批量梯度下降是个好主意吗?
不好,应该在较长时间内都没有改善再停止。
7.哪种梯度下降算法(在我们讨论过的算法中)将最快到达最佳 解附近?哪个实际上会收敛?如何使其他的也收敛?
随机梯度下降法;批量下降;逐渐降低学习率。
8.假设你正在使用多项式回归。绘制学习曲线后,你会发现训练误差和验证误差之间存在很大的差距。发生了什么?解决此问题的三 种方法是什么?
过拟合。1.降低多项式阶数。2.对模型进行正则化。3.增加训练集大小。
9.假设你正在使用岭回归,并且你注意到训练误差和验证误差几 乎相等且相当高。你是否会说模型存在高偏差或高方差?你应该增加 正则化超参数α还是减小它呢?
如果训练误差和验证误差几乎相等且相当高,则该模型很可能欠 拟合训练集,这意味着它具有很高的偏差。你应该尝试减少正则化超参 数α。
10.为什么要使用: a.岭回归而不是简单的线性回归(即没有任何正则化)? b.Lasso而不是岭回归? c.弹性网络而不是Lasso?
·具有某些正则化的模型通常比没有任何正则化的模型要好,因 此,你通常应优先选择岭回归而不是简单的线性回归。 ·Lasso回归使用 1惩罚,这通常会将权重降低为零。这将导致稀 疏模型,其中除了最重要的权重之外,所有权重均为零。这是一种自动 进行特征选择的方法,如果你怀疑实际上只有很少的特征很重要,那么 这是一种很好的方法。如果你不确定,则应首选岭回归。 ·与Lasso相比,弹性网络通常更受青睐,因为Lasso在某些情况下 可能产生异常(当几个特征强相关或当特征比训练实例更多时)。但 是,它确实增加了额外需要进行调整的超参数。如果你希望Lasso没有 不稳定的行为,则可以仅使用l1_ratio接近1的弹性网络。
11.假设你要将图片分类为室外/室内和白天/夜间。你应该实现两 个逻辑回归分类器还是一个Softmax回归分类器?
如果你要将图片分类为室外/室内和白天/夜间,因为它们不是 排他的类(即所有四种组合都是可能的),则应训练两个逻辑回归分类器。