随着科学技术的快速发展,获取数据 / 收集数据越来越方便,数据库不断增加,因此数据量 / 数据维度也会相应的增加。对于一个像素为640 x 480的图像来说,维度为307200。维度的增加相应的时间复杂度和空间复杂度也会增加。其中包括冗余和不相关的特征,因此数据降维技术起到关键性的作用。
数据降维技术主要分为两类:特征选择和子空间学习(特征提取)。特征选择技术的目的主要是:根据不同的标准,从高维数据集中选择一些相关特征来表示原始数据集(没有改变原始特征空间,具有可解释性)。特征提取技术的目的主要是:将高维数据集通过某种关系映射到低维特征子集(改变原始特征空间)。下图为特征选择算法的分类框图:
1.标签信息
根据数据的标签信息,特征选择算法可以分为:监督 无监督 半监督。
- 监督特征选择,利用数据标签信息区别不同类别的样本,但是可能存在不可靠和错误的标记,对特征选择的结果造成影响。
- 无监督特征选择,数据没有标签信息,对于每个数据都是公平的,在对未知疾病分类提供了选择,但同时也会忽略不同特征之间的相关性。
- 半监督特征选择,在部分数据被标记的情况下,可以利用半监督特征选择。通常使用标记数据来最大化不同类数据点之间的裕度,而未标记数据则用于发现空间的几何结构。