在特征工程部分,我们构建了一系列位置信息相关的特征、组合特征、成交时间特征、 排序特征、类别稀疏特征等,这么多维特征一方面可能会导致维数灾难,另一方面很容易导致过拟合,需要做降维处理,降维方法常用的有如 PCA,t-SNE 等,这类方法的计算复杂度比较高。并且根据以往工作经验,PCA 或 t-SNE 效果不是特别好。
除了采用降维算法之外,也可以通过特征选择来降低特征维度。
特征选择的方法很多: 最大信息系数(MIC)、皮尔森相关系数(衡量变量间的线性相关性)、正则化方法(L1, L2)、基于模型的特征排序方法。
用正则化来做特征选择,L1,L2,对于特征维度很大的情况,作L1, 对于特征维度很小的情况,作L2。
比较高效的是最后一种,即基于学习模型的特征排序方法, 这种方法有一个好处:模型学习的过程和特征选择的过程是同时进行的,因此我们采用这种 方法,基于 xgboost 来做特征选择,xgboost 模型训练完成后可以输出特征的重要性,据此我们可以保留 Top N 个特征,从而达到特征选择的目的。
还有其他的总结。
特征选择,就是从多个特征中,挑选出一些对结果预测最有用的特征。因为原始的特征中可能会有冗余和噪声。
特征选择和降维有什么区别呢?前者只踢掉原本特征里和结果预测关系不大的, 后者做特征的计算组合构成新特征。
3.1 过滤型
方法: 评估单个特征和结果值之间的相关程度, 排序留下Top相关的特征部分。
-评价方式:通过方差选择法、Pearson相关系数,相关系数法、卡方检验法、互信息法来对特征进行评分,设定阈值或者待选择的阈值的个数来选择 。