机器学习基础（二）降维方法

最新推荐文章于 2024-05-29 11:56:36 发布

Guanxiong He

最新推荐文章于 2024-05-29 11:56:36 发布

阅读量421

点赞数

分类专栏：机器学习基础文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/jkgghvfuj/article/details/121012594

版权

机器学习基础专栏收录该内容

20 篇文章 5 订阅

订阅专栏

降维方法

任务描述

目的：
- 现实样本的属性维度通常很高，在高维样本空间中，通常会出现“维度灾难”问题，其表现有：
  - 数据样本密度低（稀疏）：对训练集更容易拟合出精确的模型，但同时学习到了噪声，泛化能力降低（引起过拟合）
    - 以线性分类为例，高维稀疏空间下更容易找到完美的训练集分割超平面，但模型复杂程度增加，如果训练数据没有指数级的增加以保持保持同样的距离分布，反而会引起过拟合
  - 距离衡量失效：很多学习方法基于样本距离计算，在高维空间中，数据的稀疏性致使数据点在空间上分布不均匀，大部分样本点都远离高维空间中心，因此在高维空间用距离来衡量样本相似性的方法已经渐渐失效

dim-disaster

为了应对维度灾难，提出了降维方法
降维方法
- 思想：通过某种数学方法将原始高维空间转变为一个低维子空间
- 合理性：观测到的样本数据虽然是高维，但与具体任务相关的可能只是部分属性或者说某个低维分布，即高维空间中一个低维的嵌入(embedding)
形式描述：
- 数据集D中包含n个d维样本，构成d*n的样本矩阵X
- 目标空间为d’维，d’<d，在目标空间中有d’*n的目标矩阵Y
- 降维方法即建立一个映射f，以实现Y=f(X)
- 映射f遵从的核心规则：在原始d维空间中相似的样本在目标d’维空间中依旧保持相似
方法分类：
- 特征选择：
  - 认为对高维样本来说，其中只有部分属性对当前目标任务有用，剩余特征均为冗余
  - 因此特征选择工作就是在特征空间中寻找到最优的特征子集，以这部分特征构建新的样本集（样本空间）
  - 可以理解为在原始d维空间中选择d’个基向量保留，张成d’维子空间
  - 特征选择方法具体实现可参考博客：[特征选择与降维][https://blog.csdn.net/whether_you/article/details/81080281]
- 特征提取：
  - 在原始d维空间中，构建出与原来基向量不同的d’个正交基向量，张成d’维子空间
  - 与特征选择不同的是，该方法中的属性值与原样本中的属性无可见关联
  - 线性方法：
    - 通过线性变换实现样本维度变换，可表示为矩阵乘法形式：
      $Y=W^TX$
    - 无监督方法：
      - 主成分分析（PCA）
      - 局部保留投影法（LPP）
    - 有监督方法：
      - 线性判别分析（LDA）
  - 非线性方法：
    - 无法仅通过线性变换完成
    - t-SNE

参考资料：

【1】《机器学习》周志华

【2】[维度灾难][https://zhuanlan.zhihu.com/p/27488363]

【3】[特征选择与降维][https://blog.csdn.net/whether_you/article/details/81080281]

Guanxiong He

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习基础（二）降维方法

降维方法任务描述目的：现实样本的属性维度通常很高，在高维样本空间中，通常会出现“维度灾难”问题，其表现有：数据样本密度低（稀疏）：对训练集更容易拟合出精确的模型，但同时学习到了噪声，泛化能力降低（引起过拟合）以线性分类为例，高维稀疏空间下更容易找到完美的训练集分割超平面，但模型复杂程度增加，如果训练数据没有指数级的增加以保持保持同样的距离分布，反而会引起过拟合距离衡量失效：很多学习方法基于样本距离计算，在高维空间中，数据的稀疏性致使数据点在空间上分布不均匀，大部分样本点都远离高维
复制链接

扫一扫