datawhale集成学习_3
1.请用一个具体的案例解释什么是偏差和方差?
准:bias描述的是根据样本拟合出的模型的输出预测结果的期望与样本真实结果的差距,简单讲,就是在样本上拟合的好不好。要想在bias上表现好, low bias,就得复杂化模型,增加模型的参数,但这样容易过拟合( overfitting),过拟合对应上图是 high variance,点很分散。 low bias对应就是点都打在靶心时近,所以瞄的是准的,但手不一定稳
确: varience描述的是样本上训练出来的模型在测试集上的表现,要想在 variance上表现好,low varience,就要简化模型,减少模型的参数,但这样容易欠拟合( unfitting),欠拟合对应上图是 high bias,点偏离中心。 low variance对应就是点都打的很集中,但不一定是靶心附近,手很稳,但是瞄的不准
偏差度量的是单个模型的学习能力,而方差度量的是同一个模型在不同数据集上的稳定性
2.偏差与方差和误差之间的关系。
Error = Bias + Variance+误差项 𝜖 的方差。
Error反映的是整个模型的准确度,Bias反映的是模型在样本上的输出与真实值之间的误差,即模型本身的精准度,Variance反映的是用不同的数据集而使得模型的每一次输出结果与模型输出期望之间的误差,即模型的稳定性。
详细可参考这个链接:https://www.zhihu.com/question/27068705
3训练误差与测试误差之间的联系和区别,如何估计测试误差
训练误差是模型在训练集上的误差估计,测试误差则是模型在测试集上的误差估计。
估计测试误差常用的方法就是交叉验证法与训练误差修正。
4.岭回归和lasso回归的异同点。
二者都是压缩估计【正则化】的方法。我们对回归的系数进行约束或者加罚的技巧对p个特征的模型进行拟合,显著降低模型方差,这样也会提高模型的拟合效果。具体来说,就是将回归系数往零的方向压缩,这也就是为什么叫压缩估计的原因了。
岭回归改变了线性回归损失函数,引入了惩罚项L2范数
J
(
w
)
=
∑
i
=
1
N
(
y
i
−
w
0
−
∑
j
=
1
p
w
j
x
i
j
)
2
+
λ
∑
j
=
1
p
w
j
2
,
其
中
,
λ
≥
0
w
^
=
(
X
T
X
+
λ
I
)
−
1
X
T
Y
J(w) = \sum\limits_{i=1}^{N}(y_i-w_0-\sum\limits_{j=1}^{p}w_jx_{ij})^2 + {\color {blue} \lambda\sum\limits_{j=1}^{p}w_j^2},\;\;其中,\lambda \ge 0\\ \hat{w} = (X^TX + \lambda I)^{-1}X^TY
J(w)=i=1∑N(yi−w0−j=1∑pwjxij)2+λj=1∑pwj2,其中,λ≥0w^=(XTX+λI)−1XTY
Lasso回归同样改变了线性回归的损失函数,引入了惩罚项L1范数
J
(
w
)
=
∑
i
=
1
N
(
y
i
−
w
0
−
∑
j
=
1
p
w
j
x
i
j
)
2
+
λ
∑
j
=
1
p
∣
w
j
∣
,
其
中
,
λ
≥
0
J(w) = \sum\limits_{i=1}^{N}(y_i-w_0-\sum\limits_{j=1}^{p}w_jx_{ij})^2 + {\color {blue}\lambda\sum\limits_{j=1}^{p}|w_j|},\;\;其中,\lambda \ge 0
J(w)=i=1∑N(yi−w0−j=1∑pwjxij)2+λj=1∑p∣wj∣,其中,λ≥0
异同点:
- 岭回归只能将系数无限压缩趋于0,而不能等于0;而Lasso回归就可以让系数为0
- L1范数和L2范数正则化都有助于降低过拟合风险,但前者还会带来一个额外的好处:它比后者更易于获得“稀疏”( sparse)解,即它求得的会有更少的非零分量【Lasso回归可以进行特征选择而岭回归则不能】
- L1正则化的优化方法可以采用**近端梯度下降法(PGD),或最小角回归算法(LARS)**求解。L2正则化的优化用梯度下降即可。
5.如果使用pca降维前是一个三维的椭球,那么把该图形降维成二维是一个什么样的图形。
椭圆
6.尝试使用对偶理论和核函数对pca进行非线性拓展,使得Pca变成非线性降维。(拓展题)
7.本教程讲述的三种模型简化的方法之间有什么异同点。
三种模型简化分别是特征提取、正则化、降维。
要选择一个测试误差达到最小的模型,就必须对实际的测试误差进行估计,估计的方式有两种:训练误差修正与交叉验证。
特征提取: 在测试误差能够被合理的估计出来以后,我们做特征选择的目标就是:从p个特征中选择m个特征,使得对应的模型的测试误差的估计最小。
正则化: 对回归的系数进行约束或者加罚的技巧对p个特征的模型进行拟合,显著降低模型方差,这样也会提高模型的拟合效果。具体来说,就是将回归系数往零的方向压缩。
降维: 前面2种控制方差的方式:一种是使用原始变量的子集,另一种是将变量系数压缩至零。但是这些方法都是基于原始特征 𝑥 1 , . . . , 𝑥 𝑝 𝑥_1,...,𝑥_𝑝 x1,...,xp得到的。降维则是将原始的特征空间投影到一个低维的空间实现变量的数量变少。