机器学习之特征向量维度与样本空间

样本空间:以样本的属性为坐标轴张成的多维空间,也叫属性空间,输入空间。

        实际问题中,样本的属性就是样本的特征向量,所以样本的特征向量维度越高,张成的样本空间就越大,如果样本的特征向量是二维的(x, y),则样本空间是是一个二维空间,即一个平面,如果特征向量是三维的(x, y, z),张成的样本空间就是三维空间,我们现实世界中的每一个物体的坐标就可以用三维的特征向量来描述。当然这两个例子中特征向量的每一个元素取值都是无限多的(负无穷到正无穷且连续),可以假设特征向量的每一个元素都只有两个取值可能,可以直观地看到,当我们的特征向量增加维度地时候,每增加一个维度,则要覆盖住样本空间需要地样本数目是以2的指数级增长的,特征向量的维度越高,完全覆盖住样本空间需要的样本数也就越多

特征向量(x),只需要两个样本就可完全覆盖

                (x,y),需要4(2^2)个样本完全覆盖

                  (x,y,z)需要8(2^3)个样本完全覆盖

                       ..........

降维与过(欠)拟合问题:当我们用高维度的特征向量来作为训练样本时,样本空间很大,需要大量的训练样本才能保证分类器见过每一类的样本的不同特征表示(每一类样本的特征向量不是完全相同的,相当于我们的分类的C个类别把样本空间给瓜分了,每一个类别包含了样本空间的一部分,但也是相当可观数目的特征向量了,高维时想让分类器见到每一类所有可能的特征向量几乎时不可能的),样本数目不够的时候,很容易导致欠拟合,且我们在真正分类的时候,有些特征可能是不需要的,特别地,这些特征可能只在训练集中有,测试集是没有的,而当我们用大量的样本使得分类器学到了这些不需要的特征,这就导致我们的分类器泛化性能差。所以可以用降维的方法来解决过拟合的问题。

  • 2
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值