文章目录
一、降维
-
特征降维必须在特征选择做完以后才能进行。
-
当特征选择完成后,可以直接可以进行训练模型了,但是可能由于特征矩阵过大,导致计算量比较大,训练时间长的问题,因此降低特征矩阵维度也是必不可少的。
-
常见的降维方法除了基于L1的惩罚模型外,还有主成分析法(PCA) 和 线性判别分析法(LDA),这两种方法的本质都是将原始数据映射到维度更低的样本空间中;
-
但是采用的方式不同,PCA是为了让映射后的样本具有更大的发散性,LDA是为了让映射后的样本有最好的分类性能。
-
除了使用PCA和LDA降维外,还可以使用主题模型来达到降维的效果。
1.1 降维必要性
在实际的机器学习项目中,特征选择/降维是必须进行的,因为在数据中存在以下几个方面的问题:
- 数据的多重共线性:特征属性之间存在着相互关联关系。多重共线性会导致解的空间不稳定,从而导致模型的泛化能力弱;
- 高纬空间样本具有稀疏性,导致模型比较难找到数据特征;
- 过多的变量会妨碍模型查找规律;
- 仅仅考虑单个变量对于目标属性的影响可能忽略变量之间的潜在关系。
1.2 降维目的
通过降维的目的是:
- 减少特征属性的个数。
- 确保特征属性之间是相互独立

最低0.47元/天 解锁文章
546

被折叠的 条评论
为什么被折叠?



