10-降维-背景


前面我们在做线性回归中引入了正则化的概念,它的主要目的是防止数据的过拟合,机器学习关注的是泛化误差,而不是训练误差。所以我们更细化我们的训练模型生成一个好的泛化误差;维度灾难是造成过拟合的一个重大原因

1.过拟合的解决方案

  1. 新增更多样本数据
  2. 正则化-限制参数空间
  3. 降维
    3.1 直接降维–>人工/自动进行特征选择,丢弃部分数据
    3.2 线性降维–>PCA(主成分分析),MDS(多维空间缩放)
    3.3 非线性降维–>流形[ISOMAP,LLE]

2.维度灾难

2.1直观解释

假设每增加一个属性特征,这个属性特征只有0/1两种情况,我们为了能覆盖住所有的样本空间,那么我们需要的样本数增涨以 2 i 2^i 2i增加。所以在这种情况下我们所需要的样本数据就非常的巨大才能覆盖住新增的属性特征

2.2几何解释

2.2.1几何1

我们假设超立方体的边为1,超球体的半径r=0.5
在这里插入图片描述
V 超 立 方 体 = 1 (1) V_{超立方体}=1 \tag{1} V=1(1)
V 超 球 体 = K ⋅ 0. 5 p (2) V_{超球体}=K\cdot0.5^p \tag{2} V=K0.5p(2)
其中 K:常数系数;p是数据样本X的维度,p维;由(2)可得,当P → ∞ 时 , V 超 球 体 = 0 \rightarrow \infty时,V_{超球体}=0 V=0
结论:
当维数P趋向于无穷大的时候,数据的球体里面是空的,数据样本都分布在超立方体的边角地方,从而导致样本非常的稀疏和样本分布不均匀。如下图所示:
在这里插入图片描述

2.2.2几何2

在这里插入图片描述
V 外 球 体 = K ⋅ 1 P (3) V_{外球体}=K\cdot1^P \tag{3} V=K1P(3)
V 环 球 体 = K ⋅ 1 P − K ( 1 − ϵ ) P (4) V_{环球体}=K\cdot1^P-K(1-\epsilon)^P \tag{4} V=K1PK(1ϵ)P(4)
l i m p → ∞ V 外 球 体 V 环 球 体 = K K − K ( 1 − ϵ ) P = 1 1 − ( 1 − ϵ ) P = 1 (5) lim_{p\rightarrow \infty}\frac{V_{外球体}}{V_{环球体}}=\frac{K}{K-K(1-\epsilon)^P}=\frac{1}{1-(1-\epsilon)^P}=1 \tag{5} limpVV=KK(1ϵ)PK=1(1ϵ)P1=1(5)
结论:
当 0 ≤ ϵ ≤ 1 , p → ∞ ; V 外 球 体 = V 环 球 体 ; (6) 当0\le \epsilon \le 1,p\rightarrow \infty;V_{外球体}=V_{环球体};\tag{6} 0ϵ1p;V=V(6)
是不是很神奇,数据居然都集中在环形上面,就像大脑一样,里面是空的,所有的智慧分布在大脑皮层上面!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值