西瓜书-第10章-降维与度量学习

k近邻学习(kNN)

kNN在训练集中通过某种距离度量找到靠近测试样本的k个训练样本,再根据投票法或是平均法输出预测结果
kNN是懒惰学习(还有懒惰决策树)的著名代表,训练时间为0,即不需要训练。
kNN虽然简单,但泛化错误率不超过贝叶斯最优分类器的错误率的两倍。

降维(维数约简)

属性越多,维度越高,很多情况下高维度带来了维数灾难,这将带来数据样本稀疏、距离计算困难等问题,因此,我们需要通过降维来缓解维数灾难。

主成分分析(PCA)无监督的线性降维方法

PCA通过简单的向量减法矩阵-向量乘法将新样本投影低维空间中。
PCA最小的几个特征值的特征向量舍弃了,这是降维导致的结果,但是舍弃这些信息能使样本的采样密度增大,这也正是降维的重要动机,另一方面最小的特征值所对应的特征向量往往与噪声有关,舍弃它们也在一定程度上起到去噪的效果。
优势:实现快速简单,变种有KPCA和稀疏PCA等
缺点:新特征列不易解释
详见:https://blog.csdn.net/u010921136/article/details/89885045

线性判别分析(LDA)监督线性降维方法

优势:LDA受到监督,可以(但不总是)提高提取特征的预测性能。 此外,LDA提供变化(即二次LDA)来解决特定的障碍。
缺点:与PCA一样,新特征列不易解释,您仍必须手动设置或调整要保留的组件数量。 LDA还需要标记数据,这使其更具情境性。

核化线性降维(非线性降维)

核主成分分析(KPCA)
引入了核函数
需对所有样本求和,计算开销大

流行学习(manifold learning)

优势:1)假设流形的存在,部分解决了高维数据分布的问题。
缺点:1)假设流形的存在,不能总是适合数据特点。

等度量映射(Isomap)
流形在局部上与欧式空间同胚,对每个点基于欧式距离找出近邻点,然后就能建立一个近邻连接图
k近邻图:指定近邻点个数例如欧式距离最近的k个点作为近邻点,从而得到一个k近邻图
e近邻图:指定距离阈值e,距离小于e的点被认为是近邻点,从而得到一个k近邻图

局部线性嵌入(LLE)
Isomap试图保持近邻样本之间的距离不同,LLE试图保持邻域内样本之间的线性关系

(全局)度量学习(metric learning)

度量学习的目标:学习出一个合适的距离度量
不同的度量学习方法针对不同目标获得“好”的半正定对称距离度量矩阵M
关于一个欧几里德空间V的一个基,我们把内积函数在基向量上的值写成的一个矩阵称为关于该基的度量矩阵。
最终就可以将原始空间通过度量矩阵M降维

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值