【白板推导系列笔记】降维-背景

解决过拟合问题有三种思路:加数据、正则化、降维,降维的思路来自于维度灾难
已知一个正方形边长为 2 R 2R 2R,则面积为 2 2 R 2 2^{2}R^{2} 22R2,对应最大内接圆的面积为 π ⋅ R 2 \pi \cdot R^{2} πR2;一个正方体边长为 2 R 2R 2R,则体积为 2 3 R 3 2^{3}R^{3} 23R3,对应最大内接球的体积为 4 3 π ⋅ R 3 \begin{aligned} \frac{4}{3}\pi \cdot R^{3}\end{aligned} 34πR3。因此,对于更高维度 D D D,对应超正方体,我们可以认为它的体积为 2 D R D 2^{D}R^{D} 2DRD,超球体它的体积为 C ⋅ R D C \cdot R^{D} CRD,就有
lim ⁡ D → + ∞ C ⋅ R D 2 D R D = 0 \lim\limits_{D \to +\infty}\frac{C \cdot R^{D}}{2^{D}R^{D}}=0 D+lim2DRDCRD=0
其中 C C C为常数
也就是,在高维空间中的数据点大多分布在立方体的边缘,数据集更加稀疏
我们也可以计算一个 D ( D → ∞ ) D(D \to \infty) D(D)维空间,半径为 1 1 1的超球体的体积,以及该超球体与半径为 1 − ϵ ( 0 < ϵ < 1 ) 1-\epsilon(0<\epsilon <1) 1ϵ(0<ϵ<1)的超球体间球壳的体积之差,发现二者体积都为 1 1 1,也就是在球壳内部是几乎没有体积的,这也能说明在高维空间中的数据点大多分布在立方体的边缘,数据集更加稀疏

降维 { 直接降维 : 特征选择 线性降维 : P C A , M D S 非线性降维 : 流形 { I s o m a p L L E 降维\left\{\begin{aligned}&直接降维:特征选择\\&线性降维:PCA,MDS\\&非线性降维:流形\left\{\begin{aligned}&Isomap\\&LLE\end{aligned}\right.\end{aligned}\right. 降维 直接降维:特征选择线性降维:PCA,MDS非线性降维:流形{IsomapLLE

虽然白班推导里没有,但大概根据自己的理解写了一下决策树的笔记
关于k近邻法,这个我有一点没太看明白,可能需要看一下源码,晚一点再发笔记,这里只能先撂下了
下周应该会发关于sklearn使用的一点笔记

CSDN话题挑战赛第2期
参赛话题:学习笔记

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值