是一种数据leakage, 比赛题出的不好经常会有利用leakage刷分的;
比如购买行为预测,给你前三个月的数据,预测后一周的用户购买行为,你用后一周的用户行为如点击率什么的,放进前三个月的特征中,就是特征穿越了。
穿越本质上是信息泄露的问题。无论时间穿越还是会话穿越,其核心问题都是训练数据中的信息以不同方式、不同程度泄露到了测试数据中。
是一种数据leakage, 比赛题出的不好经常会有利用leakage刷分的;
比如购买行为预测,给你前三个月的数据,预测后一周的用户购买行为,你用后一周的用户行为如点击率什么的,放进前三个月的特征中,就是特征穿越了。
穿越本质上是信息泄露的问题。无论时间穿越还是会话穿越,其核心问题都是训练数据中的信息以不同方式、不同程度泄露到了测试数据中。