10-降维-背景

最新推荐文章于 2022-10-03 08:10:08 发布

取个名字真难呐

最新推荐文章于 2022-10-03 08:10:08 发布

阅读量159

点赞数

分类专栏： pytorch

本文链接：https://blog.csdn.net/scar2016/article/details/116517319

版权

pytorch 专栏收录该内容

148 篇文章 26 订阅

订阅专栏

文章目录

1.过拟合的解决方案
2.维度灾难

前面我们在做线性回归中引入了正则化的概念，它的主要目的是防止数据的过拟合，机器学习关注的是泛化误差，而不是训练误差。所以我们更细化我们的训练模型生成一个好的泛化误差；维度灾难是造成过拟合的一个重大原因

1.过拟合的解决方案

新增更多样本数据
正则化-限制参数空间
降维
3.1 直接降维–>人工/自动进行特征选择，丢弃部分数据
3.2 线性降维–>PCA(主成分分析)，MDS(多维空间缩放)
3.3 非线性降维–>流形[ISOMAP,LLE]

2.维度灾难

2.1直观解释

假设每增加一个属性特征，这个属性特征只有0/1两种情况，我们为了能覆盖住所有的样本空间，那么我们需要的样本数增涨以 $2^i$ 增加。所以在这种情况下我们所需要的样本数据就非常的巨大才能覆盖住新增的属性特征

2.2几何解释

2.2.1几何1

我们假设超立方体的边为1，超球体的半径r=0.5
在这里插入图片描述
$V_{超立方体}=1 \tag{1}$
$V_{超球体}=K\cdot0.5^p \tag{2}$
其中 K:常数系数；p是数据样本X的维度,p维；由（2）可得，当P $\rightarrow \infty时，V_{超球体}=0$
结论：
当维数P趋向于无穷大的时候，数据的球体里面是空的，数据样本都分布在超立方体的边角地方，从而导致样本非常的稀疏和样本分布不均匀。如下图所示：
在这里插入图片描述

2.2.2几何2

在这里插入图片描述
$V_{外球体}=K\cdot1^P \tag{3}$
$V_{环球体}=K\cdot1^P-K(1-\epsilon)^P \tag{4}$
$lim_{p\rightarrow \infty}\frac{V_{外球体}}{V_{环球体}}=\frac{K}{K-K(1-\epsilon)^P}=\frac{1}{1-(1-\epsilon)^P}=1 \tag{5}$
结论：
$当0\le \epsilon \le 1，p\rightarrow \infty;V_{外球体}=V_{环球体}；\tag{6}$
是不是很神奇，数据居然都集中在环形上面，就像大脑一样，里面是空的，所有的智慧分布在大脑皮层上面！

取个名字真难呐

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
10-降维-背景

文章目录1.过拟合的解决方案2.维度灾难2.1直观解释2.2几何解释2.2.1几何12.2.2几何2前面我们在做线性回归中引入了正则化的概念，它的主要目的是防止数据的过拟合，机器学习关注的是泛化误差，而不是训练误差。所以我们更细化我们的训练模型生成一个好的泛化误差；维度灾难是造成过拟合的一个重大原因1.过拟合的解决方案新增更多样本数据正则化-限制参数空间降维3.1 直接降维–>人工/自动进行特征选择，丢弃部分数据3.2 线性降维–>PCA(主成分分析)，MDS(多维空间缩放)3
复制链接

扫一扫

专栏目录