特征选择
-
看模型系数显著性。通过F检验给出各个特征的F值和P值,选出F值大、P值小的变量。
-
递归特征消除(RFE):反复构建模型,根据变量系数选择最好特征,然后再递归在剩余变量上重复该过程,直到遍历所有特征。特征被挑选出顺序就是特征重要性排序顺序。
-
稳定性选择:在不同特征子集、数据子集上运行算法,不断重复,最终汇总特征选择结果。统计,各个特征被认为是重要性特征的频率作为其重要性得分(被选为重要特征次数除以它所在子集被测试次数)。
模型评估
-
包括线下和线上模型评估
-
工程化时要考虑容错性
后续模型优化
-
想到再补充