00 Index
01 为什么要做特征降维?
02 主成分分析PCA原理与实现
03 线性判别分析LDA原理与实现
04 特征选择之过滤法(Filter)原理与实现
05 特征选择之包裹法(Wrapper)原理与实现
06 特征选择之嵌入法(Embedding)原理与实现
07 总结一下
🎭 01 为什么要做特征降维?
当我们在用LR(逻辑回归)做评分卡的时候,其实遇到需要特征降维的机会并不多,但是如果我们是用经典机器学习算法(比如XGBoost、GBDT等)来建模的话,就有很大的概率会需要我们去做特征降维的工作,因为这类的算法模型首先不要求特征必须要有解释性,第二就是也不用过多地去考虑变量间的相关性,可以放心大胆地去衍生特征。
因此数据维度爆炸就很有可能发生,而当我们的模型如果入参太多的话就需要更多的时间和资源去训练,而现实中是不允许的,所以我们需要对特征进行处理,提取对预测更加有效果的特征。
而特征降维,可以让我们在减少维度的同时可以尽可能地获取更加有效的信息(剔除冗余和噪声,必要时牺牲一些特征信息),这样子做一来可以提高特征表达的能力,二来可以提高模型训练的效率。
🎭 02 主成分分析PCA原理与实现
PCA,全称Principal Components Analysis,中文是主成分分析,是特征降维中比较经典的一种方法。它是一种线性的、无监督的、全局性的降维算法,目标就是要找到数据中的“主要成分”,提取主成分从而达到特征降维的效果。它的一个比较明显的优势就是不需要标签都可以进行特