降维与数据压缩
- 降维可以使数据规模减小,从而起到节约空间、加快算法执行等作用。数据压缩这个词我们还比较好理解,那降维是怎么一回事呢?它们两个是怎么扯上关系的呢?
- 降维,其实就是一种削减特征数量的手段。为什么要削减特征数量呢?众所周知,特征少了不好,多了也不好,可能造成特征冗余,不但会占用多余的空间,更致命的是会大大影响算法性能。所谓特征冗余,讲的就是一些特征的相关度非常高,它们的数据特征非常相似,具有很高的相关性,这样的特征对于算法是没有增益的,反而会增大计算负担。举个栗子,假如有两个特征,分别表示某物体的厘米长度和某物体的英寸长度,很明显,这个两个特征本质上就是一个特征,数据特征完全相同,仅仅差个单位换算的系数而已,这两个特征就冗余了。事实上,上面这个例子只是最通俗的解释,应用上几乎碰不到这种一眼就看得出来的傻瓜特征,在业务中出现的冗余特征往往是具有高度内在联系的特征,使得它们具有很高的相关性,我们应该可以理解,它们高度相关的话,仿佛知道一个,就可以预测出另一个的值,这种特征显然是冗余的。
- 说了这么多冗余特征的事情,降维其实就是旨在减少冗余特征,从而在不影响模型效果的前提下减少空间开支、运算负担。很明显,原本一个数据样本占100维,你给降低到了50维,可不就压缩数据了么~