解决过拟合问题有三种思路:加数据、正则化、降维,降维的思路来自于维度灾难
已知一个正方形边长为
2
R
2R
2R,则面积为
2
2
R
2
2^{2}R^{2}
22R2,对应最大内接圆的面积为
π
⋅
R
2
\pi \cdot R^{2}
π⋅R2;一个正方体边长为
2
R
2R
2R,则体积为
2
3
R
3
2^{3}R^{3}
23R3,对应最大内接球的体积为
4
3
π
⋅
R
3
\begin{aligned} \frac{4}{3}\pi \cdot R^{3}\end{aligned}
34π⋅R3。因此,对于更高维度
D
D
D,对应超正方体,我们可以认为它的体积为
2
D
R
D
2^{D}R^{D}
2DRD,超球体它的体积为
C
⋅
R
D
C \cdot R^{D}
C⋅RD,就有
lim
D
→
+
∞
C
⋅
R
D
2
D
R
D
=
0
\lim\limits_{D \to +\infty}\frac{C \cdot R^{D}}{2^{D}R^{D}}=0
D→+∞lim2DRDC⋅RD=0
其中
C
C
C为常数
也就是,在高维空间中的数据点大多分布在立方体的边缘,数据集更加稀疏
我们也可以计算一个
D
(
D
→
∞
)
D(D \to \infty)
D(D→∞)维空间,半径为
1
1
1的超球体的体积,以及该超球体与半径为
1
−
ϵ
(
0
<
ϵ
<
1
)
1-\epsilon(0<\epsilon <1)
1−ϵ(0<ϵ<1)的超球体间球壳的体积之差,发现二者体积都为
1
1
1,也就是在球壳内部是几乎没有体积的,这也能说明在高维空间中的数据点大多分布在立方体的边缘,数据集更加稀疏
降维 { 直接降维 : 特征选择 线性降维 : P C A , M D S 非线性降维 : 流形 { I s o m a p L L E 降维\left\{\begin{aligned}&直接降维:特征选择\\&线性降维:PCA,MDS\\&非线性降维:流形\left\{\begin{aligned}&Isomap\\&LLE\end{aligned}\right.\end{aligned}\right. 降维⎩ ⎨ ⎧直接降维:特征选择线性降维:PCA,MDS非线性降维:流形{IsomapLLE
虽然白班推导里没有,但大概根据自己的理解写了一下决策树的笔记
关于k近邻法,这个我有一点没太看明白,可能需要看一下源码,晚一点再发笔记,这里只能先撂下了
下周应该会发关于sklearn使用的一点笔记
CSDN话题挑战赛第2期
参赛话题:学习笔记