今日锦囊
特征锦囊:使用嵌入法(Embedding)对高维特征进行降维
🚅 Index
01 基于集成树的特征重要度筛选
02 基于LR的L1正则化特征筛选
Embedding方法是需要将待筛选的特征一并嵌入到模型中去构建,然后通过模型对特征的评价作为筛选依据,一般来说有集成树的重要度筛选(可以基于分裂次数多少、或者基尼增益、或者cover值等)、以及LR中L1正则化特征筛选。
01 基于集成树的特征重要度筛选
我们可以通过调用不同集成树模型来计算每个特征在模型中的重要度,并将结果返回供我们参考然后筛选特征,可以看出不同模型算出来的特征都差不多(Var_13和Var_7都被认为是重要的指标)。
from sklearn.feature_selection import SelectFromModel
from sklearn.datasets import load_iris
from xgboost import XGBClassifier, plot_importance
from sklearn.ensemble import GradientBoostingClassifier
X = df.drop(['