常用CV策略:
Hold-out; Kfold, GroupKFold, StratifiedKFold, TimeSeriesSplit
Adversarial validation(对抗验证)
概念:是一种常用的特征筛选方法,用于找出时序波动明显的特征。
操作:
- 对划分的训练集和验证集(测试集)进行二元编码, e.g. 训练集增加一个ad_target=1,验证集增加一个ad_target=0
- 训练一个简单的二分类模型,目标是对ad_target做二分类
- 每次训练只使用一个特征,记录模型收敛时验证集的AUC
- 迭代步骤3直到遍历所有特征,对特征按照AUC指标从高到底排序
- 重点分析AUC较高,经验阈值可以选0.7,0.8;注意缺失值问题
对抗验证(解决CV扰动);用分布观察特征