【白板推导系列笔记】降维-背景

return bool(1)

已于 2022-10-04 15:55:11 修改

阅读量350

点赞数

分类专栏：白板推导系列笔记文章标签：算法机器学习人工智能最小二乘法深度学习

于 2022-10-03 08:10:08 首次发布

本文链接：https://blog.csdn.net/liu20020918zz/article/details/127148903

版权

白板推导系列笔记专栏收录该内容

24 篇文章 1 订阅

订阅专栏

解决过拟合问题有三种思路：加数据、正则化、降维，降维的思路来自于维度灾难
已知一个正方形边长为 $2 R$ ，则面积为 $2^{2}R^{2}$ ，对应最大内接圆的面积为 $\pi \cdot R^{2}$ ；一个正方体边长为 $2 R$ ，则体积为 $2^{3}R^{3}$ ，对应最大内接球的体积为 $\begin{aligned} \frac{4}{3}\pi \cdot R^{3}\end{aligned}$ 。因此，对于更高维度 $D$ ，对应超正方体，我们可以认为它的体积为 $2^{D}R^{D}$ ，超球体它的体积为 $\cdot R^{D}$ ，就有
$\lim\limits_{D \to +\infty}\frac{C \cdot R^{D}}{2^{D}R^{D}}=0$
其中 $C$ 为常数
也就是，在高维空间中的数据点大多分布在立方体的边缘，数据集更加稀疏
我们也可以计算一个 $\to \infty)$ 维空间，半径为 $1$ 的超球体的体积，以及该超球体与半径为 $1-\epsilon(0<\epsilon <1)$ 的超球体间球壳的体积之差，发现二者体积都为 $1$ ，也就是在球壳内部是几乎没有体积的，这也能说明在高维空间中的数据点大多分布在立方体的边缘，数据集更加稀疏

$降维\left\{\begin{aligned}&直接降维:特征选择\\&线性降维:PCA,MDS\\&非线性降维:流形\left\{\begin{aligned}&Isomap\\&LLE\end{aligned}\right.\end{aligned}\right.$

虽然白班推导里没有，但大概根据自己的理解写了一下决策树的笔记
关于k近邻法，这个我有一点没太看明白，可能需要看一下源码，晚一点再发笔记，这里只能先撂下了
下周应该会发关于sklearn使用的一点笔记

CSDN话题挑战赛第2期
参赛话题：学习笔记

return bool(1)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【白板推导系列笔记】降维-背景

也就是在球壳内部是几乎没有体积的，这也能说明在高维空间中的数据点大多分布在立方体的边缘，数据集更加稀疏。解决过拟合问题有三种思路：加数据、正则化、降维，降维的思路来自于维度灾难。也就是，在高维空间中的数据点大多分布在立方体的边缘，数据集更加稀疏。的超球体间球壳的体积之差，发现二者体积都为。，对应超正方体，我们可以认为它的体积为。的超球体的体积，以及该超球体与半径为。，对应最大内接圆的面积为。，对应最大内接球的体积为。已知一个正方形边长为。
复制链接

扫一扫