机器学习基础(二)降维方法

降维方法

任务描述

  • 目的:

    • 现实样本的属性维度通常很高,在高维样本空间中,通常会出现“维度灾难”问题,其表现有:

      • 数据样本密度低(稀疏):对训练集更容易拟合出精确的模型,但同时学习到了噪声,泛化能力降低(引起过拟合
        • 以线性分类为例,高维稀疏空间下更容易找到完美的训练集分割超平面,但模型复杂程度增加,如果训练数据没有指数级的增加以保持保持同样的距离分布,反而会引起过拟合
      • 距离衡量失效:很多学习方法基于样本距离计算,在高维空间中,数据的稀疏性致使数据点在空间上分布不均匀,大部分样本点都远离高维空间中心,因此在高维空间用距离来衡量样本相似性的方法已经渐渐失效

dim-disaster

  • 为了应对维度灾难,提出了降维方法

  • 降维方法

    • 思想:通过某种数学方法将原始高维空间转变为一个低维子空间
    • 合理性:观测到的样本数据虽然是高维,但与具体任务相关的可能只是部分属性或者说某个低维分布,即高维空间中一个低维的嵌入(embedding)
  • 形式描述:

    • 数据集D中包含n个d维样本,构成d*n的样本矩阵X
    • 目标空间为d’维,d’<d,在目标空间中有d’*n的目标矩阵Y
    • 降维方法即建立一个映射f,以实现Y=f(X)
    • 映射f遵从的核心规则:在原始d维空间中相似的样本在目标d’维空间中依旧保持相似
  • 方法分类:

    • 特征选择

      • 认为对高维样本来说,其中只有部分属性对当前目标任务有用,剩余特征均为冗余
      • 因此特征选择工作就是在特征空间中寻找到最优的特征子集,以这部分特征构建新的样本集(样本空间)
      • 可以理解为在原始d维空间中选择d’个基向量保留,张成d’维子空间
      • 特征选择方法具体实现可参考博客:[特征选择与降维][https://blog.csdn.net/whether_you/article/details/81080281]
    • 特征提取:

      • 在原始d维空间中,构建出与原来基向量不同的d’个正交基向量,张成d’维子空间

      • 与特征选择不同的是,该方法中的属性值与原样本中的属性无可见关联

      • 线性方法:

        • 通过线性变换实现样本维度变换,可表示为矩阵乘法形式:
          Y = W T X Y=W^TX Y=WTX

        • 无监督方法:

        • 有监督方法:

          • 线性判别分析(LDA)
      • 非线性方法:

        • 无法仅通过线性变换完成
        • t-SNE

参考资料:

【1】《机器学习》周志华

【2】[维度灾难][https://zhuanlan.zhihu.com/p/27488363]

【3】[特征选择与降维][https://blog.csdn.net/whether_you/article/details/81080281]

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值