单个样本维度_高维度究竟有什么危害?深入讨论维度诅咒(Curse of Dimensionality)的三大特点...

本文深入探讨了维度诅咒(Curse of Dimensionality)的三大特点:距离聚集、特征空间的组合爆炸及过热点和过冷点的存在。通过模拟和实例分析,揭示了高维数据如何影响模型性能,特别是在最近邻查询、距离计算和异常检测中的挑战。随着维度增加,数据点间距离趋于集中,特征组合爆炸导致模型搜索空间指数级增长,而“Hubness”现象使得某些点成为近邻的频率远高于其他点。这些发现对于理解和解决高维数据问题具有重要意义。
摘要由CSDN通过智能技术生成

27cfff3c40461b6d53c8eeaf30abc89f.png

1. 写在前面

  维度诅咒(Curse of Dimensionality)通常用来指代在进行相似度计算、距离计算、近邻查询、以及其他直接或间接基于上述算法的模型训练时,因为数据维度较高而遇到的困难。维度诅咒长期以来受到业界不少的关注,其神秘面纱也被逐渐揭开,本文的内容主要引自1967-2012的5篇论文,从三个方面详细讨论了维度诅咒的特点,包括距离聚集(Distance Concentration)特征空间的组合爆炸(Conbinational explosion)、以及过热点和过冷点的存在(Hubness)。目录如下:

1. 写在前面
2. 用无参数、几乎无假设的简易模型模拟高维数据对模型的影响
3. 高维数据究竟会带来什么问题
3.1 距离聚集效应(Distance Concentration)
	3.1.1 高维空间中的距离聚集
	3.1.2 特征是否包含有用的信息对聚集距离效应的影响
	3.1.3 单一分部和多分布数据上的距离聚集效应
	3.1.4 不同距离函数下的距离聚集效应
3.2 组合爆炸(Combinational explosion)
3.3 Hubness
	3.3.1 Hubs的存在
	3.3.2 Hubs的成因
	3.3.3 Hubs与异常识别
4. 参考文献

2. 用无参数、几乎无假设的简易模型模拟高维数据对模型的影响

  在开始讨论维度诅咒的三大方面之前,可以先通过一个直观的示例粗浅的认识高维数据对模型的影响。论文[1]用无参数、几乎无假设的简易模型模拟了在二元分类问题中,样本规模m、特征数量n、正样本概率p之间的关系。作者使用的模型为规则“将样本预测为概率高的一类”,对于单个样本,模型正确识别的概率为(定义样本规模为m, 复杂度为n(相当于维度),两个class的概率为:

1c96dc0c242fcb14a6ebc190aec6897f.png

  当样本规模趋近无限大时,可推导出模型平均准确率的公式,带入不同的p和n可得下图(横轴为特征数n、曲线上标注的数字为两个class的概率p、纵轴为n,p带入公式后得到的正确率),从图中可得如下结论:当有无限多的训练样本时,

  • 此简易模型的正确率(模型表现)随维度增加而单调递增;
  • 当n>>2 (即特征数远大于class数)后,正确率趋近于最大值,n>20之后新增特征几乎没有带来提升;

bddb4a7c12e921537e56b0c582a48157.png

  当样本规模为有限个,且两个class概率均等(p=0.5)时,可推导出平均准确率的公式,带入不同的样本规模m和特征数n可得下图(横轴为特征数n、曲线上标注的数字样本规模m、纵轴为带入公式后得到的正确率),从图中可得如下结论:当样本规模为有限个、两个class概率均等时,

  • 对于每种样本规模m,都存在可最大化模型表现的最优特征数量;
  • 特征数超过最优特征数量,模型表现会逐渐下降,趋近于随机抽样的概率p;
  • 随着样本规模m逐渐增大,模型表现逐渐接近最大值(最上方的m趋近正无穷的曲线);

  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值